2012-11-26 5 views
2

나는 그것에 100,000+ 문자열이있는 열을 가지고 있습니다. Google 검색에서이 문자열을 지문으로 대체하려고합니다.구글 리파인을 사용하여 문자열 값을 지문으로 대체하는 방법?

Google 상세 검색에서 해당 열을 선택하고 텍스트 패싯을 만들었습니다. Text Facet에서 "Cluster"를 선택할 수 있습니다. 그러면 동일한 지문을 가진 문자열 값을 의미하는 것으로 가정하는 클러스터가 표시되고 클러스터의 첫 번째 멤버 이름이 기본값 인 새 셀 값을 선택할 수 있습니다.

나는이 이름이 지문이되기를 바랍니다. 그 이유는 여러 파일에 대해이 작업을 수행해야하며 실제로 같은 클러스터에 속한 경우 동일한 값을 가져야합니다. Ref FAQ에 따라 메모리 매개 변수를 최적화 했음에도 불구하고 너무 많은 데이터를 처리하기 때문에 파일을 연결할 수 없습니다.

그래서 열의 각 셀을 가져 와서 지문을 계산하고 열의 값을 지문으로 대체하는 작업을 찾고 있습니다.

나는 선택의 수천 브라우저를 수렁 예정으로 OSX에 10.7

답변

2

텍스트면을 구글 조정 2.5을 사용하고 있습니다. 패싯을 클러스터링에 액세스하는 수단으로 만 사용하는 경우 동일한 기능을 사용하여 Edit Cells -> Cluster and Edit

지문을 계산하려면 새 열을 추가하는 것이 좋지만 지문 인식 기능인 value.fingerprint()을 사용하십시오. 다시 필요할 때를 대비하여 원래 값을 덮어 쓰는 것이 아닙니다.

+0

Tom, 감사합니다. 제가 찾고있는 것이 었습니다. –

+0

도와 드리겠습니다. 답을 받아 들여 Freebase 태그에 대해 답변이없는 것으로 나타나지 않도록 할 수 있습니까? –