nltk

0열

1답변

두 가지 시나리오가있는 채팅 봇에서 작업하고 있습니다. 1 : 사용자가 질문을 입력 할 때 해당 질문을 사용할 수있는 경우 교육 데이터 세트에서 해당 질문에 대한 응답을 학습 데이터 집합에서 선택합니다. 2 : 사용자가 입력 한 질문을 데이터 세트에서 사용할 수없는 경우 시스템은 코드에 정의 된 기본 응답에서 응답을 제공합니다. 내 문제는 시스템이 학습 데

1열

1답변

다른 범주의 호출 함수

아래 코드에서 일치하는 범주에 적용되는 조건은 '레크리에이션'입니다. - 은 레크리에이션에 합류하는 경우 :입니다. 내가하여 동일한 함수를 호출하려면 어떻게 category = [('Luxury Apartments', 'IN', 'Recreation_Ammenities'), ('CCTV', 'IN','Security'), ('Yoga'

0열

1답변

Python : LookupError : 알 수없는 인코딩 : cp0

간단한 nltk 코드를 실행하려고합니다 : nltk.sent_tokenize(text) 및 오류 LookupError: unknown encoding: cp0이 발생합니다. 내 IPython 콘솔에서 chcp 입력 시도하고 동일한 오류가 발생하고 있습니다. Miniconda> Spyder IDE에서 Python 코드를 실행하면서 Windows10 바탕 화면

0열

1답변

일치 단어에 관계없이 사건의

는 데이터 집합 : 아래 > df Id Clean_Data 1918916 Luxury Apartments consisting 11 towers Well equipped gymnasium Swimming Pool Toddler Pool Health Club Steam Room Sauna Jacuzzi Pool Table Chess Billiards ro

2열

1답변

파이썬 목록에서 가능한 모든 이모티콘을 추출하십시오.

목표 유니 코드 단어 목록에서 가능한 모든 이모티콘을 추출하려고합니다. 아나콘다 설치시 Python3을 사용하고 있으므로 emoji.py과 같은 패키지를 사용할 수 없습니다. 다음은 단어 목록의 활입니다. lst = ['✅','türkçe','Çile','ısp','İst','ğ','some','#','@','@one','#thing','','1','41'

0열

2답변

스탠포드 NLP 용 NLTK 도커 용 JAVA_HOME 설정

저는 Docker를 사용하는 초보자입니다. Windows 7 용 Docker 도구 상자를 사용하고 있습니다. Python 웹 응용 프로그램 용 이미지를 만들었고 모든 것이 잘 작동합니다. 그러나,이 응용 프로그램에 대한 또한 java 및 java_home 자바 파일 설정이 필요한 nltk 모듈을 사용합니다. 내 컴퓨터에서 실행할 때 java_home을 ma

0열

1답변

NLTK 트리에서 노드 내용에 어떻게 액세스합니까?

NLTK 트리를 사용하는 단어를 기반으로 POS 태그를 검색하려고합니다. 트리에서 단어 (여기서는 : 다른 단어)를 찾고 (이 단어가 트리에 확실히 있음) 노드에서이 단어가 들어있는 노드의 하위에 지정된 레이블이 있는지 확인하고 싶습니다 (여기서는 NN). from nltk.tree import Tree input_string = '(ROOT (SBAR

0열

2답변

약어 및 구두점 표기법에 대한 정규식 패턴

문단이 있으며 단어와 구두점을 구분하여 토큰 화하고 그 결과를 인쇄하려고합니다. 특별한 경우가 있습니다 (예 : Peter와 같은 약어 (미국) & 및 십진수)는 문자에 첨부해야하며 구분하지 않아야합니다. 나는 다음 코드를 실행합니다 : import re text = "My weight is about 68 kg, +/- 10 grams! I live

0열

1답변

단어 클러스터링을위한 PCA 및 K- 평균

나는 Wikipedia 기사의 모음집을 가지고 있습니다. 나는 10,000 개의 가장 빈번한 단어를 확인하고 Word2Vec 벡터를 찾고 구형 k- 평균을 벡터에 사용하여 유사성을 기준으로 단어를 500 개의 그룹으로 묶었습니다. 단어 클러스터 중 3 개를 골라 단어를 단어 벡터로 다시 변환했습니다. 각 단어 벡터는 300 개의 값으로 구성된 배열이므로 모

0열

1답변

약어 및 어포 스트로피가 아닌 단어에서 구두점을 분리하여 텍스트 토큰 화

약어 및 어포 스트로피를 고려하면서 구두점을 단어에서 분리하여 토큰화할 텍스트를 입력했습니다. 나는 파이썬과 nltk 라이브러리를 사용하고 있지만 출력이 잘못되어있어 정규식이 올바르지 않다고 생각합니다. # coding: utf-8 import re import nltk from nltk.tokenize import * text = "\"Predi