tm

    2

    1답변

    저는 R에 대한 새로운 프로그래머입니다. 그리고 몇 가지 기사 (.txt)를 폴더에 저장했습니다. 이제 R에서 기사를 가져올 수 있습니다. 두 가지 방법이 있는데 어느 것이 더 낫지는 모르겠습니다. 여기 내 코드입니다 : # 1 library(tm) cname <- file.path("D:/magazine_pass") docs <- Corpus(Dir

    0

    2답변

    as.matrix으로 강요 한 R {tm} 패키지의이 문서 용어 행렬을 가지고 있습니다. 여기 MWE : > inspect(dtm[1:ncorpus, intersect(colnames(dtm), thai_list)]) <<DocumentTermMatrix (documents: 15, terms: 4)>> Non-/sparse entries: 17/43

    0

    1답변

    sample_text <- ' Ramesh is my frien. He is a very good man' 는 지금은 어떻게 할 acqTag <- tagPOS(sample_text) 내가 지금 $POStagged [1] "Ramesh/NNP is/VBZ my/PRP$ frien/NN ./. He/PRP is/VBZ a/DT very/RB good/

    1

    1답변

    R에서 findAssocs로 작업 할 때이 함수는 실제로 문서에서 검색된 용어 과 함께 발생하는 단어를 선택하지는 않지만 오히려 검색 용어가 자주 등장 할 때 발생하는 단어. 나는 아래의 간단한 테스트 스크립트를 사용하여 시도했다 : test <- list("housekeeping bath towel housekeeping room","housekeepin

    0

    1답변

    코퍼스가 생성되었습니다. 스톱 워드가 정의되었으며, 클렌징이 완료되었습니다 (removePunctuation, removeNumbers, tolower ...). 이제 코퍼스는 줄기 준비가되었습니다. 이 함수는 올바르게 실행되고 모든 것이 작동하지만 ... 각 공통 루트에 어떤 단어가 스틱되고 있는지 알아야합니다. 그것은 tm 패키지를 사용하여 가능합니까?

    0

    1답변

    나는 그래서 내가 좋아하는, 문서의 용어 행렬을 만들고 싶어 690 개 문장 500 개 단어와 함께 자신의 용어 목록을 가지고 : 나는 tm 패키지로 DocumentTermMatrix를 사용하려고했습니다 하지만, 매트릭스 자체 단어 목록을 만드는 방법을 찾을 수 없습니다. 어떻게해야합니까? 또는 당신이 추천하는 패키지 또는 기능은 무엇입니까?

    0

    2답변

    기능을 적용하려고 할 때 tm 패키지를 처음 사용하고 장애물이 발생했습니다. 함수가 실패 할 때까지 나는 다음과 같은 코드까지를 사용하고 있습니다 : 검사시 myCorpus <- Corpus(VectorSource(posts$message)) myCorpus <- tm_map(myCorpus, content_transformer(tolower)) myC

    2

    1답변

    나는 tm 패키지를 처음 사용하고 있으며 도움에 감사 할 것입니다. tm 패키지 (아래 참조)의 다양한 기능을 사용하여 불필요한 기호와 불용어를 추출한 게시물이 많이 있습니다. 마지막에는 필요한 깨끗한 문자열이 포함 된 201 개의 문서가 남아 있지만 R 개체가 아니라 VCorpus 개체입니다. 이 처리 된 문서를 모두 하나의 텍스트 파일로 스티치하여 하나

    1

    1답변

    R + tm : 의미 상 유사성에 따라 목록에서 항목 중복을 어떻게 억제합니까? v<-c("bank","banks","banking", "ford_suv',"toyota_suv","nissan_suv"). 내 예상 솔루션은 c("bank", "ford_suv',"toyota_suv","nissan_suv") 것입니다. 즉, 은행, 은행 및 은행은 하나의 용

    4

    1답변

    나는 절박한 필요가있다. 나는 공통 언어로 변환 한 코퍼스를 가지고 있지만, 일부 단어는 제대로 영어로 변환되지 않았다. 따라서 내 코퍼스에는 "(U + 00F8)"와 같은 ASCII가 아닌 문자가 있습니다. 나는 Quanteda을 이용하고 있고이 코드를 사용하여 내 텍스트를 가져온 : EUCorpus <- corpus(textfile(file="/User