corpus

    0

    2답변

    줄기 모양의 모든 단어와 원래 양식의 목록을 얻으려고합니다. 는 여기에 내가이 당신을 위해 도움이 뭔가 할 수있는 데이터 프레임이 같은 대답을 orginal_word stemmed Impressed Impress shipping ship very veri helpful help wonderful wonder experience ex

    -1

    1답변

    저는 파이썬에서 NLTK 도구를 사용하는 비 영어 코퍼스 분석 인 Sindhi를 연구 중입니다. 필자는 파이썬으로 관련된 모든 자유 언어를 가져오고 압축 파일을로드하는 코드를 처리했습니다. 압축 파일의 코드가 올바르게 작동하고 데이터를로드합니다. 코드는 다음과 같습니다 : with zipfile.ZipFile('D:\Sindhicorpus.zip') as

    0

    1답변

    방금 ​​R의 tm 패키지에 대해 알게되었습니다. 폴더에 별도의 .txt 파일이있는 경우이 파일을 R의 파일 형식으로 변환하는 방법을 알고 있습니다.하지만 특정 경우에는 모든 텍스트 데이터가 하나의 파일에 있습니다. 해당 파일의 각 문장은 하나의 문서를 나타내며 앞뒤에 구 ID 및 문장 ID가 있습니다. .tsv 형식 파일은 다음과 같습니다 : Phrase

    1

    1답변

    나는 단락의 첫 번째 문자 인 경우에만 코퍼스에서 아포스트로피를 제거하려고합니다. 문장에서 첫 단어를 찾는 것에 관한 글은 보았지만 단락은 발견하지 못했습니다. 내가 텍스트를 분석하고 있기 때문에 내가 이것을 시도하는 이유가 있습니다. 모든 구두점을 지우고 싶지만 아포스트로피와 대시는 단어 중간에 에만 사용하십시오.. 이 작업을 시작하려면, 내가 그랬어 :

    0

    1답변

    LDA 모델을 훈련 할 수 없습니다, 나는 그것에서 말뭉치 만들기 위해 tutorial의 지침을 따르 texts = [[word for word in document.lower().split() if word.isalpha()] for document in documents] corpus = corpora.Dictionary(texts) 내가이 말뭉치

    0

    1답변

    I want to deal with a one-line translation corpus between Japanese and Chinese like JST_JC_ENVI-abst-06A0281759-par1-sen1 ||| C & D 관리 시설의 고급 화 ||| C & D 관리 设施으로 고도화 JST_JC_ENVI-abst-06A0281759-par1-s

    0

    1답변

    일부 csv가 비어있는 디렉토리에서 csv 파일 목록을 읽고 코퍼스에 저장했습니다. 코퍼스에서 빈 파일을 제거하거나 나중에 'removeSparseTerms'기능을 사용할 때 문제가되는 빈 CSV 파일을 읽지 않는 방법이 있습니까? directory.location<-paste("C:\\Users\\Desktop\\testFiles",sep="") cor

    2

    1답변

    실제로 naive bayes 알고리즘을 사용하여 트위터 데이터를 기반으로 한 정서 분석을 수행하려고합니다. 나는 2000 개의 트윗을 살펴 본다. R 스튜디오로 데이터를받은 후 나는 분할과 날짜를 사전 처리를 다음과 같이 train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_su

    0

    1답변

    저는 현재 Brown Corpus와 협력 중이며 약간의 문제가 있습니다. 토큰 화 기능을 적용하려면 먼저 Brown Corpus를 문장으로 작성해야합니다. [('pos', 'The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election ....'),

    0

    1답변

    네덜란드어 트윗 목록에 대한 정서 분석이 필요하며 같은 언어로 conll2002을 사용하고 있습니다. 다음과 같이 import nltk.classify.util from nltk.classify import NaiveBayesClassifier from nltk.corpus import conll2002 import time t=time.time(