1
검색 중이지만 수정하는 방법을 찾지 못했습니다.Google 세부 검색 : 두 개의 열 사이에서지도를 추론하기 위해 패싯 도구 사용
두 개의 고유 한 IDS 열이 있습니다. A에서 각 a에 대해 B에서 가장 근접한 상위 10 개 항목을 찾고 싶습니다.
내 백업 계획은 단지 반복하기 위해 Levenshtein을 사용하는 것입니다. 그러나 Refine은 멋진 iterface와 많은 알고리즘이 구현되어 있습니다. 그것을 사용하여 작업의 일부를 수행 할 수 있기를 희망합니다.
아니면 다른 도구가 있습니까?
"가장 가까운 성냥"이란 무엇입니까? ID가 숫자입니까? ID를 클러스터하는 방법이 있다면 열을 두 개의 프로젝트로 분할하고 cross() 함수를 사용하여 클러스터 ID에서 조회를 수행 할 수 있습니다. –
나는 더 구체적 이어야만했습니다. ID는 텍스트 필드이며 한쪽에는 많은 약어가 잘못 표시되어 있습니다. 조사가 끝나면이 특정 세트에 대한 추가 데이터 없이는 성냥이 잘 작동하지 않는 것처럼 보입니다. "cross()"를 살펴볼 것입니다 ... 나는 그 기능에 대해 몰랐습니다. – mathtick