tm - 우수한 라이브러리

tm

0열

1답변

R 텍스트 마이닝 : 데이터 프레임에서 문서 용어 행렬을 생성하고, 데이터 프레임으로 변환하고, 원래 데이터 프레임에서 열을 보유합니다.

tidytext 패키지를 권장하는 lawyeR에게 감사드립니다. 여기 내 샘플 데이터에서 잘 작동하는 패키지를 기반으로하는 코드가 있습니다. 텍스트 열의 값이 비어있는 경우에도 제대로 작동하지 않습니다. (이런 일이 일어날 때가 있습니다. 여과하지 않고 빈 칸을 지우는 것이 합리적입니다.) TVAR에 대한 첫 번째 관찰을 설명하기 위해 공백으로 설정했습니다

0열

1답변

tm의 TermDocumentMatrix에있는 두 문서 간의 코사인 유사도 계산 R

패키지 내 작업은 코사인 문서를 코사인 유사성과 비교하는 것입니다. 나는 tm 패키지를 사용하여 TermDocumentMatrix (td-idf 형식) tdm을 얻습니다. 다음 작업을하지만, 내 TDM에서 용어의 수는 120,000 명 이상의 (약 50,000 문서), 매우 큰 here d <- dist(tdm, method="cosine") 또는 co

0열

1답변

의 주제 모델링

공개 리뷰 데이터와 오히려 이상한 오류가있는 상관 화제 모델을 만들고 있습니다. CTM에서 용어 (ctm1, 5)를 부를 때 각 주제에 대한 상위 5 개 용어 대신 문서 이름이 반환됩니다. 내가 달릴보다 상세하게 반환 library(topicmodels) library(data.table) library(tm) a <-Corpus(DirSource(

0열

1답변

Zipf_plot() : 두 그래프를 하나의 그래프로 비교하는 방법은 무엇입니까?

두 개의 다른 문서 용어 행렬을 비교하기 위해 tm 패키지의 Zipf_plot 함수를 사용하려고합니다. 저는 전문가가 아닙니다. 두 가지 모두에 적합한 방법이 있다면 말해 줄 수 있습니다. 이 기능? 내가 아는 Zipf_plot(x, type = "l", ...) 는, 하나 개의 창에서 둘 (또는 그 이상) 얻을 수있는 가능성이있다 : par(mfrow

0열

1답변

입력이 잘못되었습니다 'DY'§ 'utf8towcs'에서 때 TM과

내 작업이 원활를 따라 가고 있었다 pdftools를 사용하지만 난 이상한 문자를 포함하는 내 PDF 파일의 일부로 인한 문제 발생 ("DY"§ ") I을 기존의 논의를 검토하지만, 그 솔루션 아무도 일하지 않은 :에 setwd("E:/OneDrive/Thesis/Received comments document/Consultation 50") getwd(

-1열

1답변

r 텍스트 분석 스템 완료

R에서 형태소 분석을 한 후에 단어를 완성하는 방법은 무엇입니까? x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 실제 텍스트 코퍼스로 사용하기위한 예제는 훨

1열

2답변

나는 문서의 특정 용어뿐만 아니라 (말씀으로) 평균 근접에 단어의 근접도를 계산하는 방법을 알아 내려고 노력하고 문서

의 특정 용어에 단어의 근접을 계산하는 방법. 나는 비슷한 질문이 있다는 것을 알고 있지만, 필요한 답을 나에게 줄뿐만 아니라 도움이되는 곳을 알려주는 것도 없다. 그래서 나는 다음과 같은 텍스트가 있다고 가정하자 : 나는 15 내에 표시 어떤 단어를 볼 수 있도록하려면 song <- "Far over the misty mountains cold To du

1열

1답변

R 텍스트 마이닝 - 전체 데이터 프레임에서 가장 빈번한 단어입니다.

텍스트 마이닝을 파악하고 단어 빈도를 결정하는 데 어려움을 겪고 있습니다. 나는 R과 그 패키지에 대해 이해하기 시작했고, tm에 대해서 알아 낸다. (잠시 읽고 난 후에 이것이 내 문제를 해결할 수 있다고 생각한다.) 제 질문은 : 전체 열에서 가장 자주 사용되는 두 문자열을 어떻게 확인할 수 있습니까? 나는 다음과 같은 예를 가지고 : Desired D

2열

1답변

'tm'패키지를 R에로드 할 수 없습니다.

R에 tm 패키지를 설치하고로드하려고 시도한 것은 이번이 처음이며 실패했습니다. 여기에 내 컴퓨터 정보입니다 : > sessionInfo() R version 3.4.0 (2017-04-21) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build 9200)

0열

1답변

텍스트 마이닝에서 클러스터 표현을위한 더 나은 클러스터 덴 드로 그램 R

나는 (드문 드문 한 용어를 제거한 후) 세 개의 문서에 약 1140 개의 용어가 있습니다. 클러스터에 대한 정보를 갖고 싶습니다. 첨부 된 그림과 같이 클러스터를 생성했지만 읽을 수는 없습니다. k-mean 클러스터를 시도했지만 동일한 문제가 계속 발생합니다. 나는 모든 용어에 관심이 많지는 않지만 명확하게 정의 된 클러스터가 3 ~ 4 개 밖에 없다는