2013-04-12 4 views
3

이 문제를 더 잘 해결하는 방법을 알려주십시오.형태학을 가진 가장 빈번하게 발생하는 10 단어를 찾으십시오.

나는 러시아어 텍스트를 가지고 있으며 가장 일반적인 10 단어 의 모양이 인 것을 찾고 싶습니다. 파이썬에이 문제를 해결할 수있는 오픈 소스 라이브러리가 있습니까?

+3

당신은 [유래]을 찾고 (https://www.google.com/search?q=russian+ 해요 줄기 + 파이썬) – georg

답변

4

당신은 단어를 정상화하는 러시아어 파이썬 형태 분석기 중 하나를 사용할 수 있습니다 . 또한 명령 줄에서 http://company.yandex.ru/technologies/mystem/을 사용할 수도 있습니다.

나는 당신의 작업 pymorphy2을 권하고 싶습니다,하지만 난 편견 비트 :