하나의 요약본은 일반적으로 20-50 단어 사이로 비교적 비슷한 다른 요약본과 비교하고 싶습니다. 요약이 참조하는 일반 범주 및 지리적 위치는 이미 알려져 있습니다.
예를 들어, 같은 지역의 사람들이 집을 짓는 것에 대해 글을 쓰고 있다면, 나는 그 집들이 실제로 차고를 짓지 않고 집을 짓는 것을 어느 정도 확신 할 수있는 수준으로 나열 할 수 있기를 바랍니다. 뒷마당 수영장.
데이터 세트는 현재 약 50,000 개의 문서이며 하루에 약 200 개의 문서 증가율을 나타냅니다.
선호하는 언어는 파이썬, PHP, C/C++, 하스켈 또는 얼랭 중 어느 것이 든 완료 될 수 있습니다. 또한, 괜찮 으면 특정 언어를 선택하는 이유를 이해하고 싶습니다.
당신은 아마 짐작으로 내 데이터를 예를 들어, 파이썬을 사용하여 다음과 같은 사용할 수 있습니다 핀란드어로되어 있기 때문에 매우 적합합니다. 나는 내일 이것을 파헤쳐 야 할 것이다. –