OpenRefine에서는 열 간 클러스터링이 아직 지원되지 않습니다.OpenRefine - 교차 열 클러스터링
"제조업체"에 따라 '모델'을 클러스터하는 방법에 대한 제안이있는 사람은 '도시'가 '주'(많은 '스프링 필드'는 미국에있을 수 있지만 클러스터 "city": 'Springfield', 상대 'state'열이 같은 경우)? 상대 열은 이미 정규화되어 있습니다.
OpenRefine에서는 열 간 클러스터링이 아직 지원되지 않습니다.OpenRefine - 교차 열 클러스터링
"제조업체"에 따라 '모델'을 클러스터하는 방법에 대한 제안이있는 사람은 '도시'가 '주'(많은 '스프링 필드'는 미국에있을 수 있지만 클러스터 "city": 'Springfield', 상대 'state'열이 같은 경우)? 상대 열은 이미 정규화되어 있습니다.
쉽게 할 수있는 한 가지 방법은 결합 된 필드에 모델 + 제조업체, 클러스터를 연결 한 열을 작성한 다음 두 조각을 다시 분리하는 것입니다 (필요한 경우).
주소 문자열 중복 제거와 비슷한 요구 사항이있었습니다. 그래서 새 열 (COMPLETE_ADDRESS 말)을 생성하고 난 다음 않았다
다음cells["STREET"].value + " " + cells["CITY"].value + " " + cells["PROVINCE"].value + " " + cells["COUNTRY"].value + " " + cells["ZIPCODE"].value
GREL 표현 아래를 사용하여 거리, 도시, 지방, 국가 및 우편 번호 필드 연결된 :
만 null 이외의 값을 선택합니다. 이를 수행하는 유일한 방법은 COMPLETE_ADDRESS를 별도의 열으로 분할하는 것입니다. 이 경우 파이프 "|"와 같은 더 나은 분리 기호를 사용해야합니다. 기호는 기존 값과 충돌하지 않습니다.
귀하의 의견은 훌륭하게 작동합니다. 감사! –