tm

    2

    1답변

    R에서 CRAN의 TM 패키지를 사용하고 있습니다. 코퍼스를 기반으로 DocumentTermMatrix를 만드는 데 문제가 있습니다. 문제는 UTF-8 자료를 기반으로 TermDocumentMatrix를 작성한 다음 일부 단어가 유니 코드 기호로 변환 될 때 발생합니다. corpus <- Corpus(VectorSource(vector_with_texts_

    4

    2답변

    저는 R이 매우 새롭고 DocumentTermMatrixs에 대해 머리를 감쌀 수 없습니다. TM 패키지로 만든 DocumentTermMatrix가 있는데 용어와 용어가 있지만 그 접근 방법을 알 수는 없습니다. 이상적으로, 내가 좋아하는 것 : 현재 Term # "the" 200 "is" 400 "a" 200 내 코드는 다음

    -5

    1답변

    30k 레코드 (회사 이름 및 기타 속성)의 data.frame이 있습니다. dba_nm은 가장 긴 요소 인 < 60자를 갖는 회사 이름 필드입니다. 는 R 세션의 메모리 사용량이 3GB가 100메가바이트에서 상승과 내가 ?tm::VectorSource의 코드를하려고 할 때 응답 : ds <- VectorSource(dat$dba_nm) inspect(C

    2

    1답변

    나는 Rtm 패키지를 사용하고 있으며, 텍스트 요소를 제거하는 tm_map 함수 중 거의 아무 것도 나를 찾지 못한다. 으로 내가 예를 들어, 내가 실행하겠습니다 의미 '작업' d <- tm_map(d, removeWords, stopwords('english')) 을하지만 내가 ddtm <- DocumentTermMatrix(d, control = l

    5

    1답변

    R 2.15.1에서 tm 및 wordcloud 패키지를 사용하고 있습니다. DTM에서 단어 구름을 만들려고합니다. library(wordcloud) thedtmsparse = inspect(sparse) trymatrix = t(thedtmsparse) colnames(trymatrix) = c() comparison.cloud(trymatrix,

    1

    2답변

    Rtm 패키지를 사용하여 내 코퍼스를 학습 세트와 테스트 세트로 분할하고 이것을 선택하기 위해 메타 데이터로 인코딩하려고합니다. 이 작업을 수행하는 가장 쉬운 방법은 무엇입니까 (샘플을 반으로 나누려고한다고 가정). 내가 ID를 참조 > meta(d) MetaID Y 1 0 1 2 0 1 ... 내가 입력 할 때 알고 하지만, 액세스 수

    1

    2답변

    저는 tm 패키지를 사용하고 있습니다. R을 사용하는 문서에 대해 Flesch-Kincaid 점수를 얻으려고합니다. koRpus 패키지에는 읽기 수준을 비롯한 많은 메트릭이 있으며이를 사용하기 시작했습니다. 그러나, 반환 된 객체는 매우 복잡한 s4 객체 인 것처럼 보입니다. 구문 분석 방법을 이해하지 못합니다. 그래서, 나는 나의 신체에 이것을 적용 tx

    6

    3답변

    tm 라이브러리 또는 이와 관련하여 잘 작동하는 라이브러리가 미리 빌드되어 있습니까? 나의 현재 코퍼스는 TM에로드되어 다음과 같은 : 내가 koRpus를 사용하여 시도 s1 <- "This is a long, informative document with real words and sentence structure: introduction to teach

    3

    1답변

    나는 tm 패키지의 TF-IDF 가중치 기능 변경에 대한 내 자신의 질문 해결하기 위해 노력하고 있습니다에 대한 문서를 찾을 수 없습니다 : 그렇게함으로써 https://stackoverflow.com/questions/15045313/changing-tf-idf-weight-function-weight-not-by-occurrences-of-term-bu

    0

    1답변

    문자열에서 struct tm으로 이동하려면 strptime() 함수를 사용하고 있습니다. 그러나 필드를 확인할 때 채워지지 않은 몇 가지가 있습니다. 그래서 맨 페이지를 확인했지만 올바른 일을하고있는 것처럼 보입니다. 그래서 지금 어떤 일이 잘못되고 있는지를 놓치고 있습니다. 샘플 입력 문자열 : Wed, 19 Oct 2005 10:59:00 GMT s