tm - 우수한 라이브러리

tm

0열

2답변

pdf 파일에서 텍스트를 추출하고 코퍼스 객체를 생성했습니다. 텍스트 내에서 ","또는 "-"로 끝나는 줄이 있으며 동일한 문장에 속하기 때문에 다음 줄을 추가하고 싶습니다. 예를 들어 나는 [1566] "this and other southeastern states (Eukerria saltensis," [1567] "Sparganophilus hel

2열

1답변

Dictionary를 사용할 때 DocumentTermMatrix가 잘못 계산 됨

실제로 naive bayes 알고리즘을 사용하여 트위터 데이터를 기반으로 한 정서 분석을 수행하려고합니다. 나는 2000 개의 트윗을 살펴 본다. R 스튜디오로 데이터를받은 후 나는 분할과 날짜를 사전 처리를 다음과 같이 train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_su

1열

1답변

R에 오래된 패키지를 설치하는 중 오류가 발생했습니다

0.6-2 버전의 tm 라이브러리를 설치하려고합니다. archive에서 tar.gz 파일을 다운로드했으며 RStudio에서 Tools -> Archive -> Package Archive File을 선택하여 설치했습니다. 그러나 다음과 같은 오류가 발생합니다. 누군가가 저를 해결하는 데 도움을 줄 수 있습니다이하십시오 installing source pac

1열

1답변

R-bigram 토큰 화 도구의 문서 용어 행렬이 작동하지 않습니다.

저는 유니버스와 바이 그램이있는 코퍼스에 대해 2 개의 문서 - 용어 행렬을 만들려고합니다. 그러나 bigram 행렬은 현재 unigram 행렬과 동일하므로 왜 그럴지 잘 모르겠습니다. 코드 : docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices BigramT

0열

1답변

R에서 클러스터링을 의미합니다. DTM이 'NaN'을 만듭니다.

tm 패키지를 사용하여 만든 문서 모음이 있고 동일한 패키지를 사용하여 문서 용어 행렬을 만들었습니다. k-means 클러스터링을 사용하여 문서를 클러스터하고 싶습니다. 유클리드 거리를 사용하기 때문에 먼저 벡터를 정규화하여 유클리드가 의미를 갖도록합니다. 그러나 정규화 할 때 하나의 특정 문서에 대해 'NaN'값이 만들어지며 그 이유를 알 수 없습니다.

0열

1답변

tm 패키지에서 findAssocs 함수가 반환 한 결과에서 비 관련 단어를 제거하는 방법

R의 tm 패키지에서 findAssocs 함수를 사용하여 주어진 단어 집합과 관련된 모든 단어를 찾습니다. 반환 된 결과는 단어와 관련이없는 단어를 표시합니다. 예를 들어, 아래 출력에서 "new"라는 단어는 최소 상관 관계가 0.7 인 단어와 관련이 없습니다. 그래서 저는이 모든 단어들을 제거하고 연관성이있는 단어들의 벡터를 만들고 싶습니다. 이 경우

0열

1답변

텍스트 데이터를 포함한 파일을 Rtm의 코퍼스 형식으로 변환하는 방법

방금 R의 tm 패키지에 대해 알게되었습니다. 폴더에 별도의 .txt 파일이있는 경우이 파일을 R의 파일 형식으로 변환하는 방법을 알고 있습니다.하지만 특정 경우에는 모든 텍스트 데이터가 하나의 파일에 있습니다. 해당 파일의 각 문장은 하나의 문서를 나타내며 앞뒤에 구 ID 및 문장 ID가 있습니다. .tsv 형식 파일은 다음과 같습니다 : Phrase

1열

1답변

단락의 첫 단어 추출 R

나는 단락의 첫 번째 문자 인 경우에만 코퍼스에서 아포스트로피를 제거하려고합니다. 문장에서 첫 단어를 찾는 것에 관한 글은 보았지만 단락은 발견하지 못했습니다. 내가 텍스트를 분석하고 있기 때문에 내가 이것을 시도하는 이유가 있습니다. 모든 구두점을 지우고 싶지만 아포스트로피와 대시는 단어 중간에 에만 사용하십시오.. 이 작업을 시작하려면, 내가 그랬어 :

0열

1답변

Document-Term-Matrix에서`RTextTools :: toLower()`텍스트의 결과를 볼 수 없습니다.

행렬을 만들려고합니다. 다음은 R 코드 matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE) : 나는 매트릭스의 대문자와 단어가 발언 lib

3열

1답변

아랍어 텍스트가 R-

으로 표시되지 않습니다. Hadith corpus로 텍스트 분석 및 텍스트 마이닝을 계획하면서 아랍어로 R에서 작업하기 시작했습니다. 내 질문에 관련된 스레드를 읽었지 만 그럼에도 불구하고 여전히 여기에 실제 기본 (미안, 절대 초보자)을 얻을 수 없습니다. 그래서, 입력 : textarabic.v < - 스캐닝 ("데이터/아랍어 text.txt"인코딩 =