분석서버 현황

Host name
Application
추가 설치 안
bigdata01zookeeper
bigdata02zookeeper
bigdata03kafka
bigdata04kafka
bigdata05kafka
bigdata06zookeeper
bigdata07spark
bigdata08spark
bigdata09spark
bigdata10spark
bigdata11ML
bigdata12
kafka
bigdata13
kafka
bigdata14
spark
bigdata15Yum Repospark


Kafka, Spark 처리 결과

-test1

input size : 1.4T 모든서버

conditions : watermark 60s, trigger 1s

Test time : 10am~1pm

result : 오답률 50%이상

오답 원인 : 1차 ETL 병목 현상 (3번 Kafka 서버 특정 파티션 consumer 지연)


-test2 

input size : 1.4T 모든서버

Conditions : watermark 120s, trigger 2s , 3,4,5 번 서버 Thread 옵션 조정 (8,8,8 → 6,9,9)

Test time : 2pm~3pm

result : 오답률 1% 이하


* spark watermark (지연시간) 를 줄이고 오답률을 개선하려면,

KAFKA /SPARK 클러스터를 복합적으로 늘려서

KAFKA 파티션 , SPARK RDD 파티션, Spark core수 , 1차 ETL 병목 현상

등 복합적으로 개선이 되어야 합니다.

Log Data 분석 시간 결과

-

분석 서버 부하 결과(CPU, Mmemory, Disk I/O)

CPU, Memory, Disk I/O 사용률 - 요약

buffer cache flush 필요

Host name
CPU(%user)
Memory
Disk I/O
buffer cach flush
bigdata010.26%10%
10.56%
bigdata020.16%31%
5.83%
bigdata0345%99%
15%
bigdata0455%99%
12.4%
bigdata0545%99%
10.7%
bigdata060.2%81%
5%
bigdata0718%99%
8%
bigdata0818%99%
12.4%
bigdata0917%99%
10.9%
bigdata1015%99%
11.8%
bigdata111.5%99%
7%
bigdata1211%99%
35.8%
bigdata133%99%
22%
bigdata141%99%
5.7%
bigdata151.5%99%
8%


+ Recent posts