2017-10-23 7 views
-1

원본/대상 점으로 1000 개의 지리적 포인트 (위도/경도)가 있습니다. 일부 O-D 쌍 사이를 이동하는 데 드는 비용을 보여주는 기록 데이터도 있습니다. 일부 O-D의 경우 데이터 세트에 레코드가 없으며 일부 레코드에는 여러 가지 레코드가 있습니다 (예 : 계절성 때문에).클러스터링 원점/대상 점

이러한 1000 개의 지점을 위치 (위도/경도)뿐만 아니라 평균 이동 비용과 공유 대상 지점을 고려한 몇 개의 클러스터 (예 : 20)에 클러스터하려고합니다.

이러한 데이터의 클러스터링에 대한 제안 사항이 있으면 알려 주시면 감사하겠습니다.

+0

이것은 명시되지 않았습니다. 그들을 임의의 파티션에 넣으십시오. (또는 양질의 목표를 공식화하십시오) –

답변

0

누락 된 값을 어떻게 든 처리해야합니다. 지정된 레이블을 지정하거나 평균/중간 값을 가져야합니다. 그런 다음 원하는 알고리즘을 사용할 수 있습니다 (다른 유형의 기능을 알고리즘의 입력으로 함께 사용할 수 있음)

데이터의 크기가 너무 많지 않고 얼마나 많은 클러스터가있을 수 있는지 알고 있다면 , k - 수단 알고리즘은 잘 작동해야합니다.

2d 및 3d에서 데이터와 클러스터를 시각화하고 더 많은 기능을 사용하려면 치수 감소 (PCA, t-SNE)를 적용해야합니다.