2016-07-20 5 views
0

저는 약 1000 명의 승객 ID와 일주일에서 토요일까지 시간차 1에서 시간대 12 사이의 여행 빈도가 포함 된 이와 같은 데이터 집합을 가지고 있습니다. BI 클러스터링을 사용하여이 데이터 집합을 클러스터링 할 수 있습니까? 그것을하는 방법.LDA/Bi 클러스터링/K 평균을 사용하여 시간적 클러스터링을 수행하는 방법 R?

ID T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 Day 
1005 0 5 15 1 0 1 20 2 1 1 0 0 Sunday 
1005 0 2 1 0 4 1 21 1 0 0 0 0 Monday 
1005 0 0 12 0 1 4 1 2 0 1 1 1 Tuesday 
1005 0 0 5 1 0 0 6 0 0 2 0 1 Wednesday 
1005 0 0 0 2 2 2 2 1 0 2 0 0 Thursday 
1005 0 0 0 0 1 1 0 1 0 0 1 0 Friday 
1005 0 0 0 0 1 0 0 0 0 1 0 0 Saturday 
1006 2 0 0 2 0 0 0 0 1 0 0 0 Sunday 
1006 2 0 0 0 0 0 1 1 1 2 0 0 Monday 
1006 0 5 0 0 1 2 0 3 1 4 0 0 Tuesday 
1006 0 5 0 0 1 0 1 2 2 0 1 1 Wednesday 
1006 0 0 2 2 0 0 2 3 3 2 0 0 Thursday 
1006 1 0 0 0 2 0 0 3 2 2 1 0 Friday 
1006 0 0 0 0 0 0 0 0 0 0 0 0 Saturday 
1010 0 0 1 3 4 2 1 4 7 3 0 0 Sunday 
1010 2 1 1 1 1 2 3 1 3 4 2 2 Monday 
1010 0 3 3 3 5 4 5 2 2 4 6 1 Tuesday 
1010 2 1 2 0 3 1 2 1 2 3 6 1 Wednesday 
1010 5 1 2 2 2 1 3 1 0 1 3 0 Thursday 
1010 2 2 1 2 3 0 3 0 2 2 2 4 Friday 
1010 0 1 2 1 1 3 4 3 0 3 2 2 Saturday 

I는 등 VAR1는 "T1 일요일"변수 2를 대입 할 때 변수가 "T2 일요일"수단 (루프 융액을 사용하여 및에 대한)이로 설정된 데이터 변환을 시도하고있다. Var84는 토요일 T12를 의미합니다.

ID Var1 Var2 Var3 Var4 Var5 Var6 Var7 Var8 Var9 Var10 Var11 Var12 Var13 Var14 Var15 Var16 Var17 Var18 Var19 Var20 Var21 Var22 Var23 Var24 Var25 Var26 Var27 
1 1005 0 5 15 1 0 1 20 2 1  1  0  0  0  2  1  0  4  1 21  1  0  0  0  0  0  0 12 
2 1006 2 0 0 2 0 0 0 0 1  0  0  0  2  0  0  0  0  0  1  1  1  2  0  0  0  5  0 
3 1010 0 0 1 3 4 2 1 4 7  3  0  0  2  1  1  1  1  2  3  1  3  4  2  2  0  3  3 
    Var28 Var29 Var30 Var31 Var32 Var33 Var34 Var35 Var36 Var37 Var38 Var39 Var40 Var41 Var42 Var43 Var44 Var45 Var46 Var47 Var48 Var49 Var50 Var51 Var52 Var53 Var54 
1  0  1  4  1  2  0  1  1  1  0  0  5  1  0  0  6  0  0  2  0  1  0  0  0  2  2  2 
2  0  1  2  0  3  1  4  0  0  0  5  0  0  1  0  1  2  2  0  1  1  0  0  2  2  0  0 
3  3  5  4  5  2  2  4  6  1  2  1  2  0  3  1  2  1  2  3  6  1  5  1  2  2  2  1 
    Var55 Var56 Var57 Var58 Var59 Var60 Var61 Var62 Var63 Var64 Var65 Var66 Var67 Var68 Var69 Var70 Var71 Var72 Var73 Var74 Var75 Var76 Var77 Var78 Var79 Var80 Var81 
1  2  1  0  2  0  0  0  0  0  0  1  1  0  1  0  0  1  0  0  0  0  0  1  0  0  0  0 
2  2  3  3  2  0  0  1  0  0  0  2  0  0  3  2  2  1  0  0  0  0  0  0  0  0  0  0 
3  3  1  0  1  3  0  2  2  1  2  3  0  3  0  2  2  2  4  0  1  2  1  1  3  4  3  0 
    Var82 Var83 Var84 
1  1  0  0 
2  0  0  0 
3  3  2  2 

이 데이터 세트를 사용하면 K 평균을 사용하여 클러스터 할 수 있습니까? 사실, 어떤 클러스터 기법이 이런 종류의 데이터 세트에 더 적합한 지 확신하지 못합니다.

ID Hot temporal topics 
1005 var2 var2 var2 var2 var2 var3 var3 var3 var3 var3 var3 var3 var3 var3 var3 var3 var3 var3 var3 var3 var4 var6 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var7 var8 var8 var9 var10 var14 var14 var15 var17 var17 var17 var17 var18 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var19 var20 var27 var27 var27 var27 var27 var27 var27 var27 var27 var27 var27 var27 var29 var30 var30 var30 var30 var31 var32 var32 var34 var35 var36 var39 var39 var39 var39 var39 var40 var43 var43 var43 var43 var43 var43 var46 var46 var48 var52 var52 var53 var53 var54 var54 var55 var55 var56 var58 var58 var65 var66 var68 var71 var77 var82 
1006 var1 var1 var4 var4 var9 var13 var13 var19 var20 var21 var22 var22 var26 var26 var26 var26 var26 var29 var30 var30 var32 var32 var32 var33 var34 var34 var34 var34 var38 var38 var38 var38 var38 var41 var43 var44 var44 var45 var45 var47 var48 var51 var51 var52 var52 var55 var55 var56 var56 var56 var57 var57 var57 var58 var58 var61 var65 var65 var68 var68 var68 var69 var69 var70 var70 var71 
1010 var3 var4 var4 var4 var5 var5 var5 var5 var6 var6 var7 var8 var8 var8 var8 var9 var9 var9 var9 var9 var9 var9 var10 var10 var10 var13 var13 var14 var15 var16 var17 var18 var18 var19 var19 var19 var20 var21 var21 var21 var22 var22 var22 var22 var23 var23 var24 var24 var26 var26 var26 var27 var27 var27 var28 var28 var28 var29 var29 var29 var29 var29 var30 var30 var30 var30 var31 var31 var31 var31 var31 var32 var32 var33 var33 var34 var34 var34 var34 var35 var35 var35 var35 var35 var35 var36 var37 var37 var38 var39 var39 var41 var41 var41 var42 var43 var43 var44 var45 var45 var46 var46 var46 var47 var47 var47 var47 var47 var47 var48 var49 var49 var49 var49 var49 var50 var51 var51 var52 var52 var53 var53 var54 var55 var55 var55 var56 var58 var59 var59 var59 var61 var61 var62 var62 var63 var64 var64 var65 var65 var65 var67 var67 var67 var69 var69 var70 var70 var71 var71 var72 var72 var72 var72 var74 var75 var75 var76 var77 var78 var78 var78 var79 var79 var79 var79 var80 var80 var80 var82 var82 var82 var83 var83 var84 var84 

또한, I는 단어로 주파수 변환하는 시도 (Var8의 예 20 및 I 20 회 Var8 물품)은 됐나이이 집합을 클러스터링 LDA를 사용하여 적합한?

답변

0

클러스터링을 블랙 박스 알고리즘으로 취급하지 마십시오.

결과는 대부분 다른 문제를 해결할 것입니다.

모든 클러스터링 알고리즘은 특정 구조 종류를 찾으려고 시도합니다. 예를 들어, K- 평균은 최소 제곱 편차로 데이터의 보로 노이 분할을 찾으려고합니다. 해결하려는 문제가 최소 제곱 인 경우 k- 평균을 사용하는 것이 좋습니다.

따라서첫 번째는 (당신의 데이터와 당신의 문제에 따라 다름) 당신이 찾고있는 패턴에 대한 특정해야, 다음과 같은 패턴을 찾기 위해 클러스터링 알고리즘을 식별합니다.

그래서 어떤 패턴을 찾고 있습니다. 패턴의 품질을 계산할 수 있습니까?