tm - 우수한 라이브러리

tm

-2열

1답변

나는 텍스트 마이닝 프로젝트를 진행 중이며 TM 패키지를 사용하여 R에서 희소 행렬을 만들었습니다. 데이터는 아래에 언급 된 형식으로되어 있습니다 : Sample Data format 내가 아래 형식으로 원하는 : Resultant Data Format 데이터는 논쟁과 관련하여 도움이 필요하십니까. dplyr 및 tidyr를 사용하여

3열

1답변

코퍼스를 사전으로 사용할 때 stemCompletion() 함수의 잘못된 출력

줄기 완성 단계의 예로서 c ('universidad', 'university')에서 'univers'과 일치하는 가장 빈번한 단어를 찾고 싶다고 가정 해 보겠습니다. ','university ') 사전. stemCompletion() 함수의 도움말 페이지에 따르면 : type = 'prevalent'(기본값)은 완료로 가장 빈번한 일치를 취합니다. 나는

2열

1답변

R 텍스트 800K 문서 분류

800K 텍스트가 포함 된 텍스트 분류에 대한 작업을해야합니다. 나는 다음과 같은 링크에서 발견 실제 예제를 실행하기 위해 노력했습니다 : 후 # Transform dtm to matrix to data frame - df is easier to work with mat.df <- as.data.frame(data.matrix(dtm), stringsAs

2열

1답변

dtm 희소성은 tf/tfidf에 따라 다르며 동일한 자료

아무도 설명 할 수 있습니까? 나의 이해 : tf >= 0 (absolute frequency value) tfidf >= 0 (for negative idf, tf=0) sparse entry = 0 nonsparse entry > 0 그래서 정확한 스파 스/nonsparse 비율은 아래의 코드로 생성 된 두 개의 DTMS에서 동일해야합

1열

2답변

R : 데이터 마이닝. 하위 문자열을 포함하는 단어 바꾸기

'Kindertoekomst'와 'kind'가 포함 된 모든 단어를 대체하고 싶습니다. 정상적으로 처리 할 수 있습니다. Woorden<-c("kinderen", "kleinkind") Woorden[grepl("kind", Woorden)]<-"Kindertoekomst" 하지만 코퍼스 내에서 처리하고 싶습니다. 나는 Kind<-grepl("ki

0열

1답변

데이터 프레임의 텍스트 (짹짹) 속성을 포함한 tm 코퍼스 생성

트윗, 생성 날짜, 트윗 아이디, 즐겨 찾기 및 리트 윗수를 포함하는 데이터 프레임이 있습니다. 각 문서에 대해 즐겨 찾기 및 리트 윗 수를 변수로 포함하는 코퍼스를 만들고 싶습니다. 또한 무작위 문서 001 등이 아닌 짹짹 ID로 문서를 식별하고 싶습니다. 나는 id 1: 737243856144629760 2: 737242308261842945

2열

1답변

DocumentTermMatrix에서 단어 제거

제 친구와 저는 R에서 기계 학습을 사용하여 정서 분석을 실행할 수 있도록 dtm으로 수집 한 일부 트윗을 변형하려고합니다. 작업은 R로 수행되어야합니다. R이 도구로 사용될 필요가있는 우리 대학의 시험입니다. 처음에는 더 큰 데이터 세트를 코딩하기 전에 코드가 작동하는지 테스트하기 위해 더 작은 샘플을 수집했습니다. 문제는 dtm에서 맞춤 단어를 삭제하는

1열

1답변

stm 모델 평가

STM 모델 (topicmodelling)에서 작업 중이며 모델을 평가하고 검증하고 싶지만 어떻게해야할지 모르겠다. 내 코드는 다음과 같습니다 Corpus.STM <- readCorpus(dtm, type = "slam") 모델 선택 : "eval.heldout"의 출력을 해석하는 방법을 BestM1. <- searchK(Corpus.STM$docume

0열

1답변

Tf를 IDF 동일하지,이 개 문서 TF는 같은

나를 먼저 TFIDF 측정에 대한 이해 보겠습니다 때 : TF (t) = (배 용어 t의 번호가 문서에 표시)/(총 문서 내의 용어)의 수 IDF (t) = log_e (총 문서 개수/그것에 용어 t) my source, and good explanation 그래서 모든 단어 1 개 IDF 측정치가있는 문서 개수 코퍼스에서. 그러나 Tf는 모든 단어와 코퍼

0열

1답변

Im 사전에 브랜드 사전을 만든 다음 특정 거래의 입력을 청소하여 브랜드 이름 만 추출하려면

gsub을 사용하여 사전에서 브랜드 뒤에있는 모든 단어를 지우지 만 어떻게 이전에 단어를 지울 수 있습니까? ? 안녕하세요, 고객이 사용하는 브랜드를 명확하게 보여주기 위해 거래를 정리하려고합니다. 이 예는 GSUB를 사용하여 브랜드 후에 모든 단어를 삭제 될 때까지 tabla1_texto <- "exppcabify u.s.2313; 1212; 534"