nltk

-1열

1답변

import re import spacy import nltk from nltk.corpus import stopwords stop = stopwords.words('english') from nltk.corpus import wordnet inputfile = open('file.txt', 'r') String= inputfile.read(

2열

1답변

파이썬에서 토큰 화 된 텍스트에서 다 단어 용어 찾기

나는 토큰 화 된 텍스트가 있거나 일반적으로 단어 목록도 괜찮습니다. 예를 들어 : >>> from nltk.tokenize import word_tokenize >>> s = '''Good muffins cost $3.88\nin New York. Please buy me ... two of them.\n\nThanks.'''

-1열

1답변

NLTK 및 PYTHON GRAMMAR

이미 파이썬 2.7 및 nltk이 내 시스템에 설치되어 있습니다. 제발 파이썬 프로그램에서 다음 문장을 사용하여 문장의 일부분을 문장에 첨부 할 수 있습니까? N -> 'ọnẹkẹlẹ'|'igbẹlẹ'|'ọma-ọnẹkẹlẹ' Pr -> 'Omi'|'uwẹ'|'awa'|'ama'|'oñwu'|'I' Dart -> 'lẹ' Adj -> 'kẹkẹ'|'n

1열

2답변

brew install python install python2

내 Mac에는 3 가지 버전의 Python이 설치되어 있습니다. 그 중 2 개는 brew (즉, python2 및 python3)를 통해 제공되는 반면 기본 버전은 python입니다. 문제는 내가 brew install python을 설치하면 파이썬 2가 아닌 파이썬이 설치된다는 것이다. (파이썬은 터미널에 명령을 넣는 것으로 실행되는 버전을 말함). 내가

0열

1답변

계층화를 실행할 때 범주의 비율을 유지해야합니까?

감정으로 분류 된 30,000 개의 문구가 있습니다. 나는 Naive Bayes를 사용할 것입니다. 다음은 비율입니다 (정서 -> 문구 수). anger 98 boredom 157 empty 659 enthusiasm 522 fun 1088 happiness 2986 hate 1187 love 2068 neutral

0열

1답변

CountVectorizer 변환 후 예기치 않은 스파 스 행렬

저는 NLTK에서 신형이며 리뷰 용 분류 자 생성에 문제가 있습니다. I는 변환 된 데이터의 형태의 입력으로 전달 된 데이터가 형상이었다 1 * 1 희소 행렬이 얼마나 이해할 수없는이다 은 (10000,1) 는 I 원래 리뷰 데이터가 처리 약간. 정지 단어를 제거하고, 줄무늬를 제거하고 문장 부호를 제거하는 것과 같습니다. 내가 잘못 가고있는 곳에서 도

0열

1답변

Enron 전자 메일 본문에서 "전달 된 메시지"제목 및 원하지 않는 내용을 지우는 방법은 무엇입니까?

나는 Enron 전자 메일의 모든 본문을 하나의 파일에 추가하려고하므로 Stop 단어를 제거하고 NLTK로 문장으로 분할하여이 전자 메일의 텍스트를 처리 할 수 있습니다. 전달 된 메시지와 회신 한 메시지에 문제가 있습니다. 어떻게 치료할 지 모르겠습니다. Well, with the photographer and the band, I would say

0열

1답변

nltk.FreqDist() 함수에서 "TypeError : unhashable type : 'list'"를 사용 중입니다.

nltk를 사용하여 학위에 따라 구문에서 단어의 빈도 분포를 가져 오려고합니다. "TypeError : unhashable type : 'list'"를 보여주고 있습니다. 문제가 무엇인지 이해하지 마십시오. 도와주세요. P.S : 코드에는 많은 버그가 있으므로 신경 쓸 필요가 없습니다. 저는 파이썬에 대한 멍청이이기 때문에 많은 프로그램의 코드 스 니펫을

0열

1답변

언어 화 문제 (nltk)

다음과 같이 nltk lemmatizer를 사용하고 있습니다. from nltk.stem import WordNetLemmatizer lemmatizer = WordNetLemmatizer() mystring = "the sand rock needed to be mixed and shaked well before using it for construct

1열

1답변

NLTK CorpusReader for インド 언어

인도 정부 조사 사이트에서 다운로드 한 펀잡 어 (Punjabi) 자료를 분석하기 위해 NLTK를 얻으려고 시도한 스크립트는 Gurmikhi입니다. 나의 주요 목표는 전체 코퍼스에서 단어 빈도 분포를 얻는 것이므로 모든 단어를 토큰 화하는 것이 여기에 있습니다. 내 문제는 어떻게 NLTK 텍스트를 읽고 함께 것으로 보인다 나는 파이썬의 방법에 지어 사용할