SPARK재설치

일시 : 10.02
대상서버 : bigdata07, 08, 09, 10

JDK 설치

jdk version

파일 다운로드

jdk 파일 다운로드 및 설치 할 서버로 업로드.

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

설치 경로에 다운로드 받은 파일 압축 해제

/usr/lib/jvm

심볼릭 링크 설정

기존 자바의 심볼릭 링크 삭제

java 명령은 /usr/bin/java 또는 javac의 심볼릭 링크이다.

etc/alternateives 경로 아래에 있는 java 혹은 javac의 심볼릭 링크를 삭제 한다.

rm  /etc/alternatives/java
# rm  /etc/alternatives/javac

새로 다운로드 받은 버전의 경로로 링크 설정

ln -s /usr/lib/jvm/jdk1.8.0_181/bin/java /etc/alternatives/java
# ln -s /usr/lib/jvm/java-1.8.0-openjdk.x86_64/bin/javac /etc/alternatives/javac

JAVA_HOME설정

/etc/profile 또는 ~/.bash_profile등에서 JAVA_HOME 설정.

vi etc/profile

파일 하단에 아래 내용 추가

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_181
export PATH=$PATH:$JAVA_HOME/bin

scala 설치

설치 scala verseion : 2.12.7

scala 다운로드

다운로드사이트 (https://www.scala-lang.org/download/) 에서 파일 다운로드(rpm 또는 tar.gz)

rpm을 사용해 패키지 설치

rpm -qa scala          # scala 설치 여부 확인
rpm -ivh scala-2.12.7  # scala 설치

SPARK 설치

spark를 클러스터로 동작 시키려면 spark cluster의 자원을 관리 해주는 Cluster manager가 필요하다.

아래의 방법을 사용 할 수 있다.

Yarn - hadoop 과 함께 설치.
Mesos - 소스코드로 제공되어 운영환경에 맞게 빌드 해주어야 함. gcc 버전 4.8이상.
Kubernetes - centos7 이상 사용 가능.
Standalone mode

Spark release : 2.3.2
package type : pre-built for apache hadoop 2.7 and later

설치 파일 다운로드

spark 다운로드 페이지 (http://spark.apache.org/downloads.html) 에서 사용할 버전에 맞는 스파크 선택

standalone 설치

참고
https://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster

설치 정보

master

bigdata07.mms.com

slave(worker)

bigdata07.mms.com
bigdata08.mms.com
bigdata09.mms.com
bigdata10.mms.com

설치 경로

/usr/local/spark

설정

마스터 서버에서 slave정보를 입력 해줘야함.

slave로 사용할 서버에 spark 설치 해야 한다.

실행

master구동

마스터 서버에서 $SPARK_HOME/sbin/start-master.sh 스크립트를 실행.

마스터를 실행하게 되면 데몬으로 동작하며 spark_master_url:8080에 웹서버가 구동되므로 페이지에 접근이 가능하면 정상적으로 구동된 것이다.

slave 구동

각 slave 노드에서 $SPARK_HOME/sbin/start-slave.sh스크립트를 사용해 worker를 구동 시켜야 한다.

$SPARK_HOME/sbin/start-slave.sh spark_master_url:spark_port

스파크 마스터가 7077에서 구동되므로 ./start-slave.sh bigdata07.mms.com:7077 커맨드로 실행한다.

정상적으로 작동이 되면 master의 UI 페이지에서 확인이 가능하다.

테스트

spark-submit을 이용해 테스트

$ ./spark-submit \
     --master spark://192.168.100.17:7077 \
     --class org.apache.spark.examples.SparkPi \
     /usr/local/spark/examples/jars/spark-examples*.jar \
     100

'spark,kafka,hadoop ecosystems > apache spark' 카테고리의 다른 글

etl 통테 결과 (0)	2018.11.21
Spark Struct Streaming - output (0)	2018.11.20
Spark Struct Streaming - joins (0)	2018.11.20
Spark Struct Streaming - other operations (0)	2018.11.20
spark struct streaming - window operation (0)	2018.11.20

Flatmap → map 으로 메세지 개수를 조정 한뒤 아래와 같은 테스트를 진행 하였다.

1, Agent 에서 메세지당 KB 를 조정하여 AGENT 의 CPU 와 KSTREAM 의 전체 Throuput 을 관찰하는 것이 목적이다.

Partition 1 - Thread 1 - Sleep 0 기준 테스트

2.같은 Thruput 을 Partition3 = thread 3 option 에서 관찰

3.2와같은 환경에서 timesleep = 30ms 조건에서 관찰

4. sleep time 당 Throghput in(주황) 과 CPu 점유율(파랑)

'spark,kafka,hadoop ecosystems > apache.kafka' 카테고리의 다른 글

1 topic vs multi topic (0)	2018.11.21
zookeeper (0)	2018.11.20
kafka - partitions (0)	2018.11.20
kafka log 정책 (0)	2018.11.20
kafka manager (0)	2018.11.20

분석서버 현황

Host name	Application	추가 설치 안
bigdata01	zookeeper
bigdata02	zookeeper
bigdata03	kafka
bigdata04	kafka
bigdata05	kafka
bigdata06	zookeeper
bigdata07	spark
bigdata08	spark
bigdata09	spark
bigdata10	spark
bigdata11	ML
bigdata12		kafka
bigdata13		kafka
bigdata14		spark
bigdata15	Yum Repo	spark

Kafka, Spark 처리 결과

-test1

input size : 1.4T 모든서버

conditions : watermark 60s, trigger 1s

Test time : 10am~1pm

result : 오답률 50%이상

오답 원인 : 1차 ETL 병목 현상 (3번 Kafka 서버 특정 파티션 consumer 지연)

-test2

input size : 1.4T 모든서버

Conditions : watermark 120s, trigger 2s , 3,4,5 번 서버 Thread 옵션 조정 (8,8,8 → 6,9,9)

Test time : 2pm~3pm

result : 오답률 1% 이하

* spark watermark (지연시간) 를 줄이고 오답률을 개선하려면,

KAFKA /SPARK 클러스터를 복합적으로 늘려서

KAFKA 파티션 , SPARK RDD 파티션, Spark core수 , 1차 ETL 병목 현상

등 복합적으로 개선이 되어야 합니다.

Log Data 분석 시간 결과

-

분석 서버 부하 결과(CPU, Mmemory, Disk I/O)

CPU, Memory, Disk I/O 사용률 - 요약

buffer cache flush 필요

Host name	CPU(%user)	Memory	buffer cach flush
bigdata01	0.26%	10%	10.56%
bigdata02	0.16%	31%	5.83%
bigdata03	45%	99%	15%
bigdata04	55%	99%	12.4%
bigdata05	45%	99%	10.7%
bigdata06	0.2%	81%	5%
bigdata07	18%	99%	8%
bigdata08	18%	99%	12.4%
bigdata09	17%	99%	10.9%
bigdata10	15%	99%	11.8%
bigdata11	1.5%	99%	7%
bigdata12	11%	99%	35.8%
bigdata13	3%	99%	22%
bigdata14	1%	99%	5.7%
bigdata15	1.5%	99%	8%

'spark,kafka,hadoop ecosystems > apache spark' 카테고리의 다른 글

spark 재설치 (0)	2018.11.21
Spark Struct Streaming - output (0)	2018.11.20
Spark Struct Streaming - joins (0)	2018.11.20
Spark Struct Streaming - other operations (0)	2018.11.20
spark struct streaming - window operation (0)	2018.11.20

My data lab

spark 재설치

SPARK재설치

JDK 설치

파일 다운로드

심볼릭 링크 설정

JAVA_HOME설정

scala 설치

SPARK 설치

설치 파일 다운로드

standalone 설치

설치 정보

설치 경로

설정

실행

master구동

slave 구동

테스트

'spark,kafka,hadoop ecosystems > apache spark' 카테고리의 다른 글

kafka stream test

'spark,kafka,hadoop ecosystems > apache.kafka' 카테고리의 다른 글

etl 통테 결과

분석서버 현황

Kafka, Spark 처리 결과

Log Data 분석 시간 결과

분석 서버 부하 결과(CPU, Mmemory, Disk I/O)

'spark,kafka,hadoop ecosystems > apache spark' 카테고리의 다른 글

+ Recent posts

티스토리툴바