대화 형이 아닌 텍스트를 문장으로 토큰화할 수 있지만 문장에 인용 부호를 추가하면 NLTK 토크 나이저가 올바르게 분할되지 않습니다. 예를 들어,이는 예상대로 작동합니다 : import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
text1 = 'Is this one s
텍스트 파일에서 NP 덩어리를 추출하려고합니다. 해냈습니다.하지만 NP 덩어리로 된 단어 만 인쇄하고 싶습니다. 어떻게 할 수 있습니까? import nltk
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
file =open("l2.txt","r")
te
내가 도움을 사용할 수 있습니다 &를 파이썬 새로운 오전 에서 추출 문장 : 나는 목록 내에서 반복되는 동일한 키 값 (사전을 가지고 : 이것은 단지 샘플입니다 list_dummy = [{'a': 1, 'b':"The house is great. I loved it.",'e':"loved,the"}, {'a': 3, 'b': "Building is whit
WordNet에 따라 명사, 동사, 형용사 및 부사의 평균 다차원을 계산하려고합니다. 이 내가 정의하는 기능입니다 : Traceback (most recent call last):
File "<ipython-input-214-345e72500ae3>", line 1, in <module>
averagePolysemy(wn.NOUN)
File "<i
NLP에 대해 더 배우기위한 다음 단계로, 간단한 n-gram 이상으로 결과를 향상시키는 간단한 휴리스틱을 구현하려고합니다. 아래에 링크 된 Stanford Collocations PDF에 따르면 단순히 "문구"가 될 가능성이있는 패턴을 통과시키는 부분의 음성 필터를 통해 "후보 구문을 전달하면 가장 자주 사용하는 것보다 더 나은 결과를 얻을 수 있습니다
현재 Excel에서 텍스트를 읽고 bigram을 적용하고 있습니다. finalList 다음 샘플 코드에서 사용 된 목록은 입력 단어 입력에서 읽기 Excel 파일의 목록이 있습니다. 단어의 입력 텍스트 bigram=ngrams(finalList ,2)
입력 텍스트 목록에 적용 from nltk.corpus import stopwords
음절의 논리
스탠포드 파서를 사용하여 비슷한 종류의 문장을 생성하려고합니다. 단계 : 1. 표준 입력란을 스탠포드 라이브러리를 사용합니다. 문장 해석 3.Replace에서 2.Generate 생산 규칙 일부 단말기 값 I 세 의심 nltk.parse.generate () 함수를 사용하여 생성 4.Regenerate 문장 : 1. StanfordParser는 항상 유
텍스트 파일을 입력으로 사용하여 NLTK에서 다른 POS 태그를 평가하고 싶습니다. 예를 들어, Unigram tagger를 사용합니다. 나는 갈색 자료를 사용하여 Unigram 태그를 평가하는 방법을 찾았습니다. from nltk.corpus import brown
import nltk
brown_tagged_sents = brown.tagged_s