Kmean clustering lib (1).pptx


  • k-mean 알고리즘 개선 Topic

  • 추가 논의 및 결정 필요 사항

    • 데이터 전처리

  • config 분리 관련 결정사항

    • 파일명 : kmeanconfig.xml
    • 확장자 : xml
    속성명
    설명
    타입
    예시
    기본 값
    k_rangek값 범위 지정숫자, 숫자~숫자4, 10~11
    10 18
    inputdir
    입력파일 경로파일 경로(문자열)/user/hadoop/input
    data/kmeans-input
    outputpath
    결과파일 경로파일 경로(문자열)/user/hadoop/output
    data/kmeans-output_20180205_21
    dimension입력데이터의 dimension숫자3
    2
    maxitr
    최대 Iteration 횟수숫자1060
    convdelta
    반복 종료 조건숫자30.01
  • conf 파일 형식 은아래와 같으며 이곳에 저장 후 사용 한다 $(hadoophome)/data/kmeans/conf

  • Default 셋팅은 아래와 같다.

    $HADOOP_HOME/data/kmeans/conf
    1
    2
    3
    4
    5
    6
    k_range 10 18
    inputdir data/kmeans-input
    outputpath data/kmeans-output_20180205_21
    dimension 2
    maxitr 60
    convdelta 0.01



  • JSON 포맷

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    {
        "k":5,
        "dimension":2,
        "clusters": [
            {
              "center" : [2 5] ,
              "count" 3,
              "points":[ [34], [25], [16]]
             },
        {
              "center" : [2,5] ,
              "count" 3,
              "points":[ [34], [25], [16]]
             },
        {
              "center" : [8 8] ,
              "count" 2,
              "points":[ [109], [88]]
             },
        {
              "center" : [4 5] ,
              "count" 1,
              "points":[ [45] ]
             },
        {
              "center" : [12 12] ,
              "count" 1,
              "points":[ [12,12]]
             }
        ]
     }


'Algorithm' 카테고리의 다른 글

FDM vs FVM vs FEM  (0) 2021.01.04
ML flow  (0) 2018.11.19
1. TSP ( Travel salesman Person ) - Ant colony  (0) 2018.11.19

+ Recent posts