corpus

0열

2답변

R 형태의 stemDocument를 수행 한 후 원래 형태와 함께 모든 줄기 단어의 목록을 얻는 방법

줄기 모양의 모든 단어와 원래 양식의 목록을 얻으려고합니다. 는 여기에 내가이 당신을 위해 도움이 뭔가 할 수있는 데이터 프레임이 같은 대답을 orginal_word stemmed Impressed Impress shipping ship very veri helpful help wonderful wonder experience ex

-1열

1답변

파이썬 NLTK ngram 코드는 결과를주지 않습니다.

저는 파이썬에서 NLTK 도구를 사용하는 비 영어 코퍼스 분석 인 Sindhi를 연구 중입니다. 필자는 파이썬으로 관련된 모든 자유 언어를 가져오고 압축 파일을로드하는 코드를 처리했습니다. 압축 파일의 코드가 올바르게 작동하고 데이터를로드합니다. 코드는 다음과 같습니다 : with zipfile.ZipFile('D:\Sindhicorpus.zip') as

0열

1답변

텍스트 데이터를 포함한 파일을 Rtm의 코퍼스 형식으로 변환하는 방법

방금 R의 tm 패키지에 대해 알게되었습니다. 폴더에 별도의 .txt 파일이있는 경우이 파일을 R의 파일 형식으로 변환하는 방법을 알고 있습니다.하지만 특정 경우에는 모든 텍스트 데이터가 하나의 파일에 있습니다. 해당 파일의 각 문장은 하나의 문서를 나타내며 앞뒤에 구 ID 및 문장 ID가 있습니다. .tsv 형식 파일은 다음과 같습니다 : Phrase

1열

1답변

단락의 첫 단어 추출 R

나는 단락의 첫 번째 문자 인 경우에만 코퍼스에서 아포스트로피를 제거하려고합니다. 문장에서 첫 단어를 찾는 것에 관한 글은 보았지만 단락은 발견하지 못했습니다. 내가 텍스트를 분석하고 있기 때문에 내가 이것을 시도하는 이유가 있습니다. 모든 구두점을 지우고 싶지만 아포스트로피와 대시는 단어 중간에 에만 사용하십시오.. 이 작업을 시작하려면, 내가 그랬어 :

0열

1답변

Gensim : 나는 문장의 목록을 가지고

LDA 모델을 훈련 할 수 없습니다, 나는 그것에서 말뭉치 만들기 위해 tutorial의 지침을 따르 texts = [[word for word in document.lower().split() if word.isalpha()] for document in documents] corpus = corpora.Dictionary(texts) 내가이 말뭉치

0열

1답변

How to put translation corpus into different files

I want to deal with a one-line translation corpus between Japanese and Chinese like JST_JC_ENVI-abst-06A0281759-par1-sen1 ||| C & D 관리 시설의 고급 화 ||| C & D 관리 设施으로 고도화 JST_JC_ENVI-abst-06A0281759-par1-s

0열

1답변

R : 빈 .csv 파일을 제거/읽지 않음

일부 csv가 비어있는 디렉토리에서 csv 파일 목록을 읽고 코퍼스에 저장했습니다. 코퍼스에서 빈 파일을 제거하거나 나중에 'removeSparseTerms'기능을 사용할 때 문제가되는 빈 CSV 파일을 읽지 않는 방법이 있습니까? directory.location<-paste("C:\\Users\\Desktop\\testFiles",sep="") cor

2열

1답변

Dictionary를 사용할 때 DocumentTermMatrix가 잘못 계산 됨

실제로 naive bayes 알고리즘을 사용하여 트위터 데이터를 기반으로 한 정서 분석을 수행하려고합니다. 나는 2000 개의 트윗을 살펴 본다. R 스튜디오로 데이터를받은 후 나는 분할과 날짜를 사전 처리를 다음과 같이 train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_su

0열

1답변

단어를 문장 문자열로 변환하는 방법 - 텍스트 분류

저는 현재 Brown Corpus와 협력 중이며 약간의 문제가 있습니다. 토큰 화 기능을 적용하려면 먼저 Brown Corpus를 문장으로 작성해야합니다. [('pos', 'The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election ....'),

0열

1답변

NLTK 코퍼스를 사용하는 네덜란드 트윗을위한 감정 분석 코퍼스 conll2002

네덜란드어 트윗 목록에 대한 정서 분석이 필요하며 같은 언어로 conll2002을 사용하고 있습니다. 다음과 같이 import nltk.classify.util from nltk.classify import NaiveBayesClassifier from nltk.corpus import conll2002 import time t=time.time(