저는이 기법이 코퍼스인지 여부에 관계없이 모든 데이터 프레임의 첫 번째 N 문자를 가져 오는 것과 비슷하다고 추측합니다.각 코퍼스의 처음 25 단어를 가져 오는 방법 (R)?
내 시도 : Greetings
를 n = 6 코퍼스로 시작
create.greetings <- function(corpus, create_df = FALSE) {
for(i in length(Charlotte.corpus.raw)) {
Doc1<-Charlotte.corpus.raw[i]
Word1<-Doc1[1:25]
Greetings[i]<-Word1
}
return(VCorpus)
}
. 널 코퍼스를 만드는 법이나 충분히 큰 문자의 코퍼스를 알아낼 수 없었습니다. 여기에 200 개의 문서 자료 (Charlotte.corpus.raw
)가 있습니다. 벡터와 달리 (그리고 확장, 데이터 프레임), 널 코퍼를 생성하는 쉬운 방법이없는 것처럼 보입니다.
문제의 일부는 "문서"의 클래스를 인식하지 못하는 것입니다. 코퍼스 만 인식합니다. 즉, R에 대해, 단일 문서는 n = 1의 코퍼스입니다.
재현 할 샘플 : 그런 다음 몇 가지로 가지고있는 디렉토리에 대한 기능을 실행하는 'TM'과 'dplyr'와 'NLP'패키지뿐만 아니라 일반적인 R 패키지
read.corpus <- function(directory, pattern = "", to.lower = TRUE) {
corpus <- DirSource(directory = directory, pattern = pattern) %>%
VCorpus # Read files and create `VCorpus` object
if(to.lower == TRUE) corpus <- # Lowercase text
tm_map(corpus,
content_transformer(tolower))
return(corpus)
}
가 필요합니다 txt 문서라면, 함께 작업 할 코퍼스가 있습니다. 그런 다음 위에 나온 Charlotte.corpus.raw를 귀하의 코퍼스 이름을 그대로 사용하십시오.
귀하의 "신체"기본적으로 문자열의 단지 벡터, 공백으로 구분 된 단어 각되는 문장/문단? [재현 가능한 예] (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example), 구체적으로 작지만 대표적인 샘플 데이터를 제공하십시오. – r2evans
@ r2evans 방금 내가 편집 한 내용은 어떻습니까? 컴퓨터에 이미 저장된 데이터를 사용하는 것이 더 편리하다고 생각합니다. – Antecedent
죄송합니다.이 시스템에'tm'을 설치할 수 없으므로 (패키지'slam'은 R-3.2.5/win에서는 사용할 수 없습니다) 코드로 테스트 할 수 없습니다. 'tm_map'없이 이것을 할 수 없다면, 나는 빠져 있습니다. – r2evans