Algorithm
kmeans - hadoop map-reduce 프로그래밍
sangil55
2018. 11. 20. 17:25
k-mean 알고리즘 개선 Topic
추가 논의 및 결정 필요 사항
데이터 전처리
config 분리 관련 결정사항
- 파일명 : kmeanconfig.xml
- 확장자 : xml
속성명설명타입예시기본 값k_range k값 범위 지정 숫자, 숫자~숫자 4, 10~11 10 18
inputdir
입력파일 경로 파일 경로(문자열) /user/hadoop/input data/kmeans-input
outputpath
결과파일 경로 파일 경로(문자열) /user/hadoop/output data/kmeans-output_20180205_21
dimension 입력데이터의 dimension 숫자 3 2
maxitr
최대 Iteration 횟수 숫자 10 60 convdelta
반복 종료 조건 숫자 3 0.01 conf 파일 형식 은아래와 같으며 이곳에 저장 후 사용 한다 $(hadoophome)/data/kmeans/conf
Default 셋팅은 아래와 같다.
JSON 포맷