2014-04-23 8 views
1

인터넷상의 모든 문서 (더 중요한 것은 html)에서 영어 단어가 아닌 가장 일반적인 하위 문자열을 찾을 수있는 방법이 있습니까 (통계적으로 중요한 샘플도 좋을 수 있음). 근사치를 구하십시오. 예를 들어 "corp"는 전체 영어 단어가 아닌 후보가 될 수 있지만 "우산", "the"는 후보자가 될 수 없습니다.인터넷의 공통 부분 문자열

+0

Google에이 질문에 (그리고 돈을) 문의하십시오. –

답변

2

당신이 요구하는 것은 전혀 도움이 될 수 있는지 판단하지 않습니다 ...

대답 : 당신의 자신의 웹 말뭉치를 부트 스트랩 가능하며 쉽게 ACL SIGWAC에 잘 문서화 방법을 찾을 수 있습니다. 기본 접근법은 검색 엔진 히트를 얻기 위해 (모든 언어 또는 언어로) 일련의 대표적인 씨앗 단어를 모아서 조합하는 것입니다. 그런 다음 획득 한 URL을 웹 크롤러에 제공하고 목적에 부합 할 때까지 크롤러가 문서를 가져 오도록합니다.

마지막으로 원시 텍스트를 추출하고 모든 데이터에 대해 일련의 문자 n-gram 모델을 계산해야합니다. 너는 무엇을 기대할 수 있니? 단일 문자는 1 문자보다 긴 모든 조합보다 훨씬 더 자주 사용되고, 두 문자 조합은 3 그램보다 자주 발생합니다. Zipf의 법에 위배되는 것으로 의심됩니다. 그러나 전체 단어에 해당하는 시퀀스를 필터링하는 것이 쉽지 않으며 추가 문제가 발생할 수 있습니다.

다른 도구가있을 수 있지만 BootCaT toolkitHeritrix crawler을 조합하여 큰 웹 기반 조직을 구축 한 결과가 좋았습니다.

+0

좋은, 나는 trigrams 이상에만 관심이있을 것이다. 저의 동기는 이러한 트라이 그램을 사용하면 최대한의 결과를 얻을 수있는 검색 부분 문자열을 찾을 수 있다는 것입니다. – stackit