nltk

0열

1답변

대화 형이 아닌 텍스트를 문장으로 토큰화할 수 있지만 문장에 인용 부호를 추가하면 NLTK 토크 나이저가 올바르게 분할되지 않습니다. 예를 들어,이는 예상대로 작동합니다 : import nltk.data tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') text1 = 'Is this one s

0열

1답변

NLTK의 pos_tag 모듈은 LookupError

자세한 것은 위에있는 를 반환합니다. Jupiter 노트북에서 실행하고 오류 메시지가 나타납니다.

0열

1답변

NP 덩어리로 된 단어 인쇄

텍스트 파일에서 NP 덩어리를 추출하려고합니다. 해냈습니다.하지만 NP 덩어리로 된 단어 만 인쇄하고 싶습니다. 어떻게 할 수 있습니까? import nltk from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize file =open("l2.txt","r") te

-2열

1답변

파이썬 단락

내가 도움을 사용할 수 있습니다 &를 파이썬 새로운 오전 에서 추출 문장 : 나는 목록 내에서 반복되는 동일한 키 값 (사전을 가지고 : 이것은 단지 샘플입니다 list_dummy = [{'a': 1, 'b':"The house is great. I loved it.",'e':"loved,the"}, {'a': 3, 'b': "Building is whit

-1열

1답변

WordNet에 따라 명사, 동사, 형용사 및 부사의 평균 다차원을 계산하십시오.

WordNet에 따라 명사, 동사, 형용사 및 부사의 평균 다차원을 계산하려고합니다. 이 내가 정의하는 기능입니다 : Traceback (most recent call last): File "<ipython-input-214-345e72500ae3>", line 1, in <module> averagePolysemy(wn.NOUN) File "<i

0열

1답변

LDA를 적용한 후 자동으로 항목에 라벨을 지정하는 방법

저는 LDA를 Python으로 구현했습니다. 이제 LDA에서 얻은 항목 중 원하는 항목에 레이블을 지정하고 싶습니다. 주제 모델의 [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.0

1열

1답변

nltk.RegexpParser 문법 조합하기

NLP에 대해 더 배우기위한 다음 단계로, 간단한 n-gram 이상으로 결과를 향상시키는 간단한 휴리스틱을 구현하려고합니다. 아래에 링크 된 Stanford Collocations PDF에 따르면 단순히 "문구"가 될 가능성이있는 패턴을 통과시키는 부분의 음성 필터를 통해 "후보 구문을 전달하면 가장 자주 사용하는 것보다 더 나은 결과를 얻을 수 있습니다

1열

1답변

ngram을 적용하기 전에 입력 텍스트를 이해하는 가장 좋은 방법

현재 Excel에서 텍스트를 읽고 bigram을 적용하고 있습니다. finalList 다음 샘플 코드에서 사용 된 목록은 입력 단어 입력에서 읽기 Excel 파일의 목록이 있습니다. 단어의 입력 텍스트 bigram=ngrams(finalList ,2) 입력 텍스트 목록에 적용 from nltk.corpus import stopwords 음절의 논리

0열

1답변

스탠포드 파서를 사용한 문장 생성

스탠포드 파서를 사용하여 비슷한 종류의 문장을 생성하려고합니다. 단계 : 1. 표준 입력란을 스탠포드 라이브러리를 사용합니다. 문장 해석 3.Replace에서 2.Generate 생산 규칙 일부 단말기 값 I 세 의심 nltk.parse.generate () 함수를 사용하여 생성 4.Regenerate 문장 : 1. StanfordParser는 항상 유

0열

2답변

NLTK에서 POS 타거 평가

텍스트 파일을 입력으로 사용하여 NLTK에서 다른 POS 태그를 평가하고 싶습니다. 예를 들어, Unigram tagger를 사용합니다. 나는 갈색 자료를 사용하여 Unigram 태그를 평가하는 방법을 찾았습니다. from nltk.corpus import brown import nltk brown_tagged_sents = brown.tagged_s