2013-03-21 5 views
1

검색 중이지만 수정하는 방법을 찾지 못했습니다.Google 세부 검색 : 두 개의 열 사이에서지도를 추론하기 위해 패싯 도구 사용

두 개의 고유 한 IDS 열이 있습니다. A에서 각 a에 대해 B에서 가장 근접한 상위 10 개 항목을 찾고 싶습니다.

내 백업 계획은 단지 반복하기 위해 Levenshtein을 사용하는 것입니다. 그러나 Refine은 멋진 iterface와 많은 알고리즘이 구현되어 있습니다. 그것을 사용하여 작업의 일부를 수행 할 수 있기를 희망합니다.

아니면 다른 도구가 있습니까?

+1

"가장 가까운 성냥"이란 무엇입니까? ID가 숫자입니까? ID를 클러스터하는 방법이 있다면 열을 두 개의 프로젝트로 분할하고 cross() 함수를 사용하여 클러스터 ID에서 조회를 수행 할 수 있습니다. –

+0

나는 더 구체적 이어야만했습니다. ID는 텍스트 필드이며 한쪽에는 많은 약어가 잘못 표시되어 있습니다. 조사가 끝나면이 특정 세트에 대한 추가 데이터 없이는 성냥이 잘 작동하지 않는 것처럼 보입니다. "cross()"를 살펴볼 것입니다 ... 나는 그 기능에 대해 몰랐습니다. – mathtick

답변

1

지문 또는 ngramFingerprint (source)와 같은 클러스터링 알고리즘을 Refine (교정)의 클러스터링 인터페이스에서 사용할 수 있다는 것을 알고 계셨습니까? ngramFingerprint (값)

이제이 새로운 열을 설정하여 다른 데이터와 교차 할 수

당신에게 IDS 필드를 사용하여

는 다음 식에이 열을 기반으로 새 열을 만듭니다. 이것은 더 많은 성냥을 얻는 것을 도울지도 모르다.