SPARK재설치
일시 : 10.02
대상서버 : bigdata07, 08, 09, 10
JDK 설치
jdk version
파일 다운로드
jdk 파일 다운로드 및 설치 할 서버로 업로드.
- https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
설치 경로에 다운로드 받은 파일 압축 해제
- /usr/lib/jvm
심볼릭 링크 설정
기존 자바의 심볼릭 링크 삭제
java 명령은 /usr/bin/java
또는 javac의 심볼릭 링크이다.
etc/alternateives
경로 아래에 있는 java
혹은 javac
의 심볼릭 링크를 삭제 한다.
rm /etc/alternatives/java
# rm /etc/alternatives/javac
새로 다운로드 받은 버전의 경로로 링크 설정
ln -s /usr/lib/jvm/jdk1.8.0_181/bin/java /etc/alternatives/java
# ln -s /usr/lib/jvm/java-1.8.0-openjdk.x86_64/bin/javac /etc/alternatives/javac
JAVA_HOME설정
/etc/profile
또는 ~/.bash_profile
등에서 JAVA_HOME 설정.
vi etc/profile
파일 하단에 아래 내용 추가
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_181
export PATH=$PATH:$JAVA_HOME/bin
scala 설치
설치 scala verseion : 2.12.7
scala 다운로드
다운로드사이트 (https://www.scala-lang.org/download/) 에서 파일 다운로드(rpm 또는 tar.gz)
rpm
을 사용해 패키지 설치
rpm -qa scala # scala 설치 여부 확인
rpm -ivh scala-2.12.7 # scala 설치
SPARK 설치
spark를 클러스터로 동작 시키려면 spark cluster의 자원을 관리 해주는 Cluster manager가 필요하다.
아래의 방법을 사용 할 수 있다.
- Yarn - hadoop 과 함께 설치.
- Mesos - 소스코드로 제공되어 운영환경에 맞게 빌드 해주어야 함. gcc 버전 4.8이상.
- Kubernetes - centos7 이상 사용 가능.
- Standalone mode
Spark release : 2.3.2
package type : pre-built for apache hadoop 2.7 and later
설치 파일 다운로드
spark 다운로드 페이지 (http://spark.apache.org/downloads.html) 에서 사용할 버전에 맞는 스파크 선택
standalone 설치
참고
- https://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster
설치 정보
master
- bigdata07.mms.com
slave(worker)
- bigdata07.mms.com
- bigdata08.mms.com
- bigdata09.mms.com
- bigdata10.mms.com
설치 경로
/usr/local/spark
설정
마스터 서버에서 slave정보를 입력 해줘야함.
slave로 사용할 서버에 spark 설치 해야 한다.
실행
master구동
마스터 서버에서 $SPARK_HOME/sbin/start-master.sh
스크립트를 실행.
마스터를 실행하게 되면 데몬으로 동작하며 spark_master_url:8080
에 웹서버가 구동되므로 페이지에 접근이 가능하면 정상적으로 구동된 것이다.
slave 구동
각 slave 노드에서 $SPARK_HOME/sbin/start-slave.sh
스크립트를 사용해 worker를 구동 시켜야 한다.
$SPARK_HOME/sbin/start-slave.sh spark_master_url:spark_port
스파크 마스터가 7077에서 구동되므로 ./start-slave.sh bigdata07.mms.com:7077
커맨드로 실행한다.
정상적으로 작동이 되면 master의 UI 페이지에서 확인이 가능하다.
테스트
spark-submit을 이용해 테스트
$ ./spark-submit \
--master spark://192.168.100.17:7077 \
--class org.apache.spark.examples.SparkPi \
/usr/local/spark/examples/jars/spark-examples*.jar \
100
'spark,kafka,hadoop ecosystems > apache spark' 카테고리의 다른 글
etl 통테 결과 (0) | 2018.11.21 |
---|---|
Spark Struct Streaming - output (0) | 2018.11.20 |
Spark Struct Streaming - joins (0) | 2018.11.20 |
Spark Struct Streaming - other operations (0) | 2018.11.20 |
spark struct streaming - window operation (0) | 2018.11.20 |