tm

    1

    1답변

    일부 텍스트 마이닝을 수행하기 위해 R-tm-Rweka 패키지를 사용하고 있습니다. 한 번에 tf-tdm을 작성하는 대신 내 목적에 충분하지 않아서 ngram을 추출해야합니다. 나는 @Ben 함수 TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 3)) tdm <- T

    0

    2답변

    이 커뮤니티 덕분에 영화 스크립트에서 단어 구름을 만들 수 있었고 쉽고 쉬워졌습니다. 누군가 제가 영화 팬을 요청했기 때문에 대본을 발견하고 나는갔습니다. 문제는 내가 제거하도록 코딩 한 단어가 몇 개 나타납니다. 그들은 'il, ve, re'와 같이 보입니다. 주요 아포스트로피에 주목하십시오. 나도 그것을 돌보는하지 않는 것 행운과 R의 removeWor

    3

    1답변

    나는 이것이 상당히 쉬워야한다고 생각합니다. 나는 현재 정규 표현식으로 변환 한 globs 형식의 용어 사전을 가지고 있습니다. 정규 표현식으로 변환 한 이유는 tm 패키지가 그 패키지에서만 작동하기 때문입니다. 괜찮아. 하지만 여러 사전 용어를 전달하여 termDocumentMatrix를 부분 집합하는 방법을 알아낼 수는 없습니다. 이것에 대한 또 다른

    0

    1답변

    content_transformer 함수가 tm 패키지에서 제거되었습니다 0.6-2 ?? library(tm) docs<-Corpus(DirSource("Dname")) docs<-tm_map(docs,content_transformer(gsub), pattern="using",replacement="use") Error: could not find

    0

    1답변

    에 지프의 법칙을 그릴 수 없습니다 나는 테이블로 변환 : 아마 단어 순위에 열을 추가해야 myTbl = read.table("word_count.txt") # read text file colnames(myTbl)<-c("term", "frequency") head(myTbl, n = 10) > head(myTbl, n = 10) ter

    2

    1답변

    저는 DocumentTermMatrix를 가지고 있으며이 문서의 특정 용어를 대체하고 빈도 테이블을 작성하려고합니다. 다음과 같이 시작점은 원본 문서입니다 : 지금까지 너무 좋아 freq0 <- as.matrix(sort(colSums(as.matrix(tdm)), decreasing=TRUE)) freq0 : library(tm) library(q

    0

    1답변

    tm 패키지의 R에 대한 기본 텍스트 분석을 개발하려고합니다. 입력 파일 : 여러 호텔 나는 그것을 가져 와서 TM 패키지에서 제공하는 변환 일부 데이터 정리 작업을 깨달았다 의 CSV 파일 cointaining 리뷰. 나는 다음과 같은 스크립트를 사용하여 문서 기간 매트릭스를 만들 때 그런 다음 : inspect(try[1:5, 200:500]) <<D

    1

    1답변

    R {tm}을 사용하여 텍스트 마이닝에서 다음 MWE를 고려하십시오. Toyota는 미국에서 여러 SUV 모델을 보유하고 있습니다. models<-c("highlander","land cruiser","rav4","sequoia","4runner"). 일반적인 미디어는 "toyota rav4"(코퍼스는 이미 소문자로 변환 됨)가 아닌 "rav4"를 의미합니

    0

    2답변

    없는, 평소 당, 코퍼스를 만들 : mycorpus <- Corpus(DirSource(folder,pattern="txt")) 내가 인코딩 변수를 사용하고 있지 않다 유의하시기 바랍니다. summary (mycorpus)에는 나열된 문서 이름이 표시됩니다. tm_map 일련의 변환 그러나 이후 :이 Terms Docs toyota character(0)

    1

    2답변

    R의 STM 패키지에 문제가 있습니다. Quantum에 코퍼스를 구축했으며이를 STM 형식으로 변환하려고합니다. 독립된 CSV 파일로 메타 데이터를 저장 했으므로 텍스트 문서를 메타 데이터와 병합하는 코드가 필요합니다. readCorpus()하고 "변환은() 함수를 자동으로 코퍼스에 메타 데이터 정보를 추가하지 이는 Quanteda의 모습 :. EUdocv