2011-10-13 2 views
0

기본적으로 많은 문서 집합에 포함 된 모든 N 그램에 ID를 고유하게 할당 할 수 있기를 원합니다. 따라서 처리 할 문서가 1,000 만 개가 있다면 각 문서의 텍스트를 읽고 N 그램 (주로 트라이 그램)을 얻고 고유 한 ID를이 N 그램에 할당 할 수 있어야합니다. 여하튼,이 고유 ID를 저장해야만 빨리 가져올 수 있습니다.고유 한 ID를 큰 문서 집합에 할당

+0

N이 상당히 작다고 가정하면 각 N 그램을 사용하여 자체를 식별하지 않는 이유는 무엇입니까? –

+0

대부분의 경우 N = 3 (trigram)이지만 나중에 나중에 가져올 수 있도록 어딘가에 유지해야합니다. 본질적으로, 스캔 단계 (모든 문서로부터 할당 된 고유 ID로서의 트라이 그램) 및 처리 단계 (문서가 판독되고 문서의 서명이 모든 트라이 그램으로부터 고유 ID로 생성되는) – user965692

답변

1

위의 설명을 바탕으로, N 그램을 자체 식별자로 사용하는 것이 좋습니다. 그렇게하면 ID에서 N-gram으로 별도의 매핑을 유지할 필요가 없습니다.

예를 들어 "hello", "ell"및 "llo"트로 그램이 포함 된 "hello"텍스트가 포함 된 문서가 있다고 가정 해보십시오 (단어 경계를 포함하지 않는다고 가정). 먼저 1 = "hel", 2 = "ell", 3 = "llo"와 같은 ID 매핑을 설정하고 문서 서명을 {1, 2, 3}으로 설정하는 대신 N 그램을 직접 사용할 수 있습니다 문서 서명 { "hel", "ell", "llo"}. 이 방법을 사용하면 스캔 및 처리 단계를 문서 전체에 걸쳐 단일 패스로 결합 할 수도 있습니다.