lemmatization

    -1

    1답변

    Netbeans 8.0 (다음 link에 있음)을 사용하여 Java의 문자 코드에서 예외가 발생했습니다. 이는 내 프로젝트에 여러 클래스로 구성되어 있습니다. 예외는 일반적으로 NoSuchMethodError하면 컴파일 타임과 런타임에 다른 버전을 사용하는 의미 Exception in thread "main" java.lang.NoSuchMethodErro

    10

    2답변

    Brown Corpus에서 NLTK를 통해 Wordnet Lemmatizer를 사용하고 있습니다 (명사가 단수형 또는 복수형으로 더 많이 사용되는지 확인하기 위해). 즉 from nltk.stem.wordnet import WordNetLemmatizer l = WordnetLemmatizer() 나는 그런 것과도 간단한 쿼리 아래 (적어도 2 초) 꽤 오

    2

    1답변

    저는 파이썬, NLTK 및 WordNetLemmatizer를 사용하여 사전 처리기에서 작업하고 있습니다. 'bad' lem.lemmatize('worse', pos=wordnet.ADV) // here, we are specifying that 'worse' is an adverb 출력 : : 여기 'worse' 글쎄, 모든 것이 괜찮 는 여기에 내가

    0

    1답변

    텍스트의 n 그램을 계산하기 위해 TfIdfVectorizer를 사용하고 있지만 먼저이를 lemmatize해야합니다. 하나의 서면 형식은 다른 표제어와 일치 할 수 있으므로 모두 표기해야합니다. Scikit-Learn 맥락에서 어떻게 처리 할 수 ​​있습니까? 분석기를 작성하여 TfIdfVectorizer에 전달해야합니까? 어떻게 작동합니까?

    7

    2답변

    굴절 형태의 단어를 줄이기 위해 lemmatization을 적용하고 싶습니다. 나는 영어로 WordNet이 그런 기능을 제공한다는 것을 알고 있지만 네덜란드어, 프랑스어, 스페인어 및 이탈리아어로 lemmatization을 적용하는 데에도 관심이 있습니다. 이 문제에 대해 신뢰할만한 확실한 방법이 있습니까? 고맙습니다!

    2

    1답변

    텍스트에서 일부 키워드를 추출하려고합니다. 그것은 아주 잘 작동하지만 복수형을 제거해야합니다. 이미 Lucene을 검색 목적으로 사용하고 있으므로 색인화 된 용어로 키워드를 추출하는 데 사용하려고합니다. 나는 "대통령"과 같은 용어를 가질 수있는 용어 목록에서 var list = new List<KeyValuePair<int, string>>(); usi

    39

    5답변

    파이썬에서 wordnet lemmatizer를 사용하고 싶었고 pos 태그가 명시 적으로 지정되지 않은 한 기본 pos 태그가 NOUN이고 동사에 대한 올바른 보조 문자가 출력되지 않는다는 것을 알았습니다. 동사. 내 질문에 위의 lemmatization을 정확하게 수행하기위한 가장 좋은 방법은 무엇입니까? nltk.pos_tag을 사용하여 pos 태그를

    4

    1답변

    프로젝트 작업 중이고 주어진 단어의 근원을 알아야합니다 (형태소 분석). 아시다시피 사전을 사용하지 않는 형태소 분석 알고리즘은 정확하지 않습니다. 또한 WordNet을 시도했지만 프로젝트에 좋지 않습니다. phpmorphy 프로젝트를 찾았지만 API는 Java에 포함되어 있지 않습니다. 현재 데이터베이스 또는 다른 형식의 영어 단어 텍스트 파일을 찾고 있

    2

    2답변

    나는 단어와 그 복수형의 보조 정리를 얻는 작은 모듈을 가지고있다. 그런 다음 두 단어 (단수 또는 복수)가 포함 된 문장을 찾는 문장을 순서대로 검색합니다. 나는 그것이 작동하고있다 그러나 더 우아한이 표정을 건설하는 방법 있으면 나는 생각해보고 있었다. 감사! 참고 : Python2 words = ((cell,), (wolf,wolves)) strin

    0

    4답변

    필자는 일종의 형태소 분석기/기각 장치를 구현해야합니다. 나는 다른 형태로 몇 마디 (수천)를 가지고있다. 그것은 형태 적 사전이 아니라 단지 작은 부분입니다. 파일에서 자동으로 스 트리머를 배우는 것이 좋은 생각입니까? 사용할 수있는 오픈 소스 구현이 있습니까?