nltk

1열

1답변

내가 고정 표시기에 NLTK 패키지를 설치하려고에 NLTK 설치할 수 없습니다 아래로 아래 == requirement.txt NLTK에서, FROM python:3-onbuild # COPY startup script into known file location in container COPY start.sh /start.sh RUN python

2열

1답변

Naive Bayes nltk python에서 가장 유익한 기능 백분율은 어떻게 계산됩니까? 우리는 아래의 명령을 실행할 때

우리는 일반적으로 다음과 같은 결과를 얻을 : - classifier.show_most_informative_features(10) 결과 : Most Informative Features outstanding = 1 pos : neg = 13.9 : 1.0 insulting = 1 neg : pos = 13.

0열

1답변

특정 컨텍스트 파일에서 word2vec 빌드를 평가하는 방법

gensim word2vec를 사용하여 Named-Entity-recognition 문제에서 단어를 벡터로 표현하기 위해 여러 소송 파일이있는 CBOW 모델을 만들었지 만 평가 방법을 알고 싶습니다. 내 말의 표현. wordsim353 (NLTK) 또는 Google의 다른 온라인 데이터 세트와 같은 다른 데이터 세트를 사용하는 경우 파일의 내 도메인 데이터

0열

2답변

내가 jupyter

에 NLTK를 통해 vader_lexicon 다운로드 어떻게 내가 사용할 수 있습니다 알고 nltk.download() 하지만 정말 시간이 모든 것을 다운로드시키는을 낭비하고 싶지 않아요. 난 그냥 설치하는 방법 vader_lexicon

0열

1답변

데이터 세트에서 가장 자주 나오는 단어를 삭제하십시오.

나는 많은 반복이있는 텍스트로 작업하려고합니다. SKLearn에서 전에 tf-idf 벡터 라이저를 사용했으며 파라미터는 max_df=0.5입니다. 즉, 단어가 입력의 50 %보다 많으면 단어가 사용되지 않습니다. Python에서 비슷한 기능이 있는지, 아니면 Doc2Vec 또는 NLTK인지 알고 싶습니다. 데이터 집합을 벡터화하지 않고 데이터 집합의 50

3열

2답변

nltk를 사용하여 문자열에서 이름을 추출하는 방법

구조화되지 않은 문자열에서 이름 (인디언)을 추출하려고합니다. 여기 내 코드를 온 : text = "Balaji Chandrasekaran Bangalore | Senior Business Analyst/ Lead Business Analyst An accomplished Senior Business Analyst with a track record of

0열

1답변

파이썬을 사용하여 클래스 변수와 함께 텍스트 파일을위한 unigram과 bigram 카운트 매트릭스를 만드는 법?

내가 파이썬 를 사용하여 CSV로 클래스 변수와 함께 텍스트 파일의 음절과 음절 수를 행렬을 만들 는 텍스트 파일 내가 한 음절과 음절 수를 원하는이 Text Class I love the movie Pos I hate the movie Neg 과 같이 두 개의 열이 있습니다 텍스트 열과 출력 C

0열

1답변

목록에서 NLTK 코퍼스 분류

Pubmed의 정보를 사용하여 NLTK 자료를 작성하려고합니다. 첫 번째 시도에서 Entrez 패키지를 사용하여 데이터를 검색하는 작은 함수를 성공적으로 만들었고 가져온 문서 제목 (문자열 목록, 제목)을 파일 집합 (각 제목을 새로운 파일)을 사용하고 문서의 범주로 각 'fileid'(즉 파일 이름)를 사용하여 코퍼스를 만들었습니다. 이제 게임을 강화해야

0열

1답변

HTML에서 NLTK보다 빠른 텍스트를 추출 하시겠습니까?

우리는 NLTK를 사용하여 HTML 페이지에서 텍스트를 추출하지만, 대부분의 간단한 텍스트 분석 만 원합니다. 단어 수. 파이썬을 사용하여 HTML에서 보이는 텍스트를 추출하는 방법이 있습니까? 가시적/보이지 않는 노드, 이미지의 대체 텍스트 등 일부 최소 수준에서 HTML (그리고 이상적으로는 CSS)을 이해하는 것이 추가적으로 유용 할 것입니다.

2열

1답변

는 NLTK

에 freqDist에서 튜플의 목록을 얻으려면 어떻게 두 개의 열 id 및 text 나는 단어가 행마다 텍스트에 대한 계산이 포함 된 새 열을 추가 할 와 dataframe 있습니다. 나는 내가 word_count를 호출 단어와 그 주파수와 튜플의 목록을 얻을 수 있도록 노력하겠습니다 토크 나이 후 내가 nltk word = f.udf(lambda toke