2014-02-26 4 views
0

OpenRefine에서는 열 간 클러스터링이 아직 지원되지 않습니다.OpenRefine - 교차 열 클러스터링

"제조업체"에 따라 '모델'을 클러스터하는 방법에 대한 제안이있는 사람은 '도시'가 '주'(많은 '스프링 필드'는 미국에있을 수 있지만 클러스터 "city": 'Springfield', 상대 'state'열이 같은 경우)? 상대 열은 이미 정규화되어 있습니다.

답변

0

쉽게 할 수있는 한 가지 방법은 결합 된 필드에 모델 + 제조업체, 클러스터를 연결 한 열을 작성한 다음 두 조각을 다시 분리하는 것입니다 (필요한 경우).

+0

귀하의 의견은 훌륭하게 작동합니다. 감사! –

0

주소 문자열 중복 제거와 비슷한 요구 사항이있었습니다. 그래서 새 열 (COMPLETE_ADDRESS 말)을 생성하고 난 다음 않았다

다음
cells["STREET"].value + " " + cells["CITY"].value + " " + cells["PROVINCE"].value + " " + cells["COUNTRY"].value + " " + cells["ZIPCODE"].value 

GREL 표현 아래를 사용하여 거리, 도시, 지방, 국가 및 우편 번호 필드 연결된 :

  1. 하는 새로운 클러스터를 COMPLETE_ADDRESS 열이 기본 알고리즘
  2. 각 클러스터의 값을 병합했습니다. 이제 값은 완벽한 중복입니다.
  3. 열을 영구적으로 정렬합니다.
  4. "비어있는"작업을 수행하십시오.
  5. 마지막으로이 글을 작성로서, 독립적 인 열을 병합 할 기능이 없다,라고 갖는 COMPLETE_ADDRESS

만 null 이외의 값을 선택합니다. 이를 수행하는 유일한 방법은 COMPLETE_ADDRESS를 별도의 열으로 분할하는 것입니다. 이 경우 파이프 "|"와 같은 더 나은 분리 기호를 사용해야합니다. 기호는 기존 값과 충돌하지 않습니다.