lemmatization

    2

    1답변

    현재 PorterStemmer를 사용하여 파생 단어를 식별하고 있습니다. 그러나, 나는 같은 의미가 아니지만 가지고있는 단어로 문제에 직면하고있어. 예를 들어 Market와 Marketing Wine 및 Winning 등 는 다른 의미를 가지고 있지만 PorterStemmer 동일한로를 식별한다. 어떤 열린 도구가 이러한 문제를 해결할 수 있습니까? 코너

    2

    1답변

    나는 수십만 개의 텍스트 문서가있는 MySQL 데이터베이스를 가지고 있으며이 텍스트 파일을 검색해야합니다. 검색 기능을 구현하기 위해 Sphinx를 사용하기로 결정했습니다. 그러나 나는 사용자가 모든 다른 형태의 검색 용어를 찾을 수 있어야합니다. 필자는 Python으로 lemmatizer를 작성하여 상당히 정확한 결과를 산출 할 수 있었다. 나의 질문은

    7

    1답변

    '먹는 것', '먹는 것'과 같은 문자열로 변환하고 싶습니다. 검색으로 lemmatization을 솔루션으로 찾았지만 필자가 만났던 모든 lemmatizer 도구는 단어 목록이나 사전 검색을 사용합니다. 사전 검색을 피하고 고효율을 제공하는 임의 표기법이 있습니까? 규칙을 기반으로하는 표기법이 될 수 있습니다. 예, 저는 "줄기"를 찾지 않습니다.

    5

    2답변

    나는 파이썬에서 lemmatizer를 만들고 있습니다. 내가 실시간으로 처리하기 위해서/처리해야하는 데이터의 양이 상당히 많기 때문에 처리 속도는 입니다. 데이터 : 결합 할 수있는 모든 단어 유형에 연결된 모든 가능한 접미어를 사용합니다. 또한 나는 그들의 단어 유형 (들)과 보조 정리 (들)에 연결된 표제어를 가지고있다. 이 프로그램은 단어를 입력으로

    2

    2답변

    다음 란 단어와 함께 무엇을 해야할지하지 않습니다 from nltk import WordNetLemmatizer as wnl wnl().lemmatize("American") wnl().lemmatize("Americans") 둘 단순히 인수를 반환합니다. 나는 미국인들이 미국인으로 줄어들길 바란다. 아무도 어떻게 이런 일이 생길지 모를거야? 나는

    1

    2답변

    opensource java 구현 lemmatizer를 알고 있는지 물어보고 싶습니다. 아니면 opensource가 아니라면 라이센스를 지불하지 않고도 사용할 수있는 자바 구현 lemmatizer를 적어도 필요로합니다.

    1

    2답변

    나는 dbsight가 동의어를 허용하고 검색을위한 단어를 허용한다는 것을 알고 있지만 이것 역시 굴절 형의 동사를 다루고있다. '수영'것이 DBSight 위키에 수영, 수영, 수영, 수영, 그리고 swum과 링크를 찾아야한다 : http://wiki.dbsight.com/index.php?title=User_dictionary

    17

    2답변

    몇 가지 방법으로 처리해야하는 프랑스어 텍스트가 있습니다. 이를 위해, 나는 다음을 수행해야합니다이 첫째, 두 번 이상 동일한 루트를 처리하지 않도록 그런 다음 그 단어를 lemmatize 단어에 텍스트를 토큰 화 지금까지 내가 볼 수 있듯이, NLTK의 wordnet lemmatizer는 영어로만 작동합니다. 나는 "voudrais"를 줄 때 "voulo