tm

    4

    1답변

    R에서 tm 패키지를 사용하는 코퍼스가 있습니다 (또한 Python의 NLTK에서 같은 스크립트를 미러링 함). 나는 unigrams로 일하고 있지만 어떤 종류의 파서가 한 단어처럼 공통으로 존재하는 단어를 결합하고 싶습니다. 즉, "New"와 "York"을 별도로 보지 않으려 고합니다. 데이터가 함께있을 때 설정되고,이 특정 쌍을 "뉴욕"으로 표시되는 것

    2

    1답변

    R "tm"패키지를 사용하여 본문에있는 키워드의 수를 얻으려고합니다. 이 키워드는 코퍼스 텍스트 중 하나하지 등장 날씨의 이진 결과 테이블을 리턴 # get the data strings f<-as.vector(forum[[1]]) # replace + f<-gsub("+", " ", f ,fixed=TRUE) # lower case f<-to

    0

    1답변

    나는 R을 사용하여 pdf 파일을 txt 파일로 변환 할 수있는 프로그램이 있습니다.이 프로그램을 변환하려는 pdf 파일의 디렉토리에 어떻게 적용합니까? txt 파일로? 당신이하려는 파일을 # download pdftotxt from # ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.03.zip # and extract

    2

    1답변

    현재 텍스트 블록에서 키워드를 추출하는 프로젝트를 진행 중입니다. 다음은 초기 목록의 처음 세 항목의 샘플입니다. 대량의 데이터를 처리 할 때 DocumentTermMatrix 명확한 행렬로 나는 TM 패키지와 함께 R에이 일을 기대했다 descriptest<-c("Columbia University is one of the world's most impo

    2

    1답변

    나는 lapply를 사용하고자하는 데이터 프레임을 가지고 있습니다. 여기 첫 번째 열의 첫 번째 값을 선택 : link <- c( "http://www.r-statistics.com/tag/hadley-wickham/", "http://had.co.nz/", "http:/

    1

    1답변

    작동하지 lda.collapsed.gibbs.sampler 나는 R에 완전히 새로운 그리고 난 현재 로그를 분석 할 TM 및 LDA와 패키지를 일하고 있어요. lda.collapsed.gibbs.sampler는 "초기"매개 변수를 사용 할 수 있으며, 문서에 명시된 년대 : initial A list of initial topic assignments fo

    0

    1답변

    키/값 사전을 기반으로 토큰을 변환하는 데 사용하는 함수가 있습니다. dictionary <- c("casa", "barco", "carro", "arbol") names(dictionary) <- c("home", "boat", "car", "tree") translate2 <- function (text, dictionary) { text

    2

    1답변

    데이터 유형이 time_t 인 변수가 있습니다. 이 유형을 "YYYY-MM-DD HH : MM : SS"로 변환하고 싶습니다. char buff[20]; time_t now = time(NULL); strftime(buff, 20, "%Y-%m-%d %H:%M:%S", localtime(&now)); 어떤 제안이 어떻게 변환 : 그것은 localti

    0

    1답변

    R에서 'lda'패키지를 사용하여 코퍼스의 토픽 모델 분석을 수행한다 ('corpusB'라고 부르 자.). 나는 먼저 'lexicalize'명령을 사용하여 분석을위한 코퍼스를 준비합니다.이 명령은 용어 - 문서 행렬과 사전 지정되지 않은 경우 코퍼스에 고유 토큰이있는 어휘를 반환합니다. 연구 목적으로 다른 코퍼스에서 유추 된 어휘 ('corpusA'라고 부

    6

    1답변

    Naive Bayes Classifier를 문서 용어 행렬과 함께 사용하는 데 매우 성가신 문제가 있습니다. 나는 아주 간단한 실수를하고 있지만 그것이 무엇인지 알 수 없다고 확신한다. 내 데이터는 계정 스프레드 시트에 있습니다. 저는 어떤 카테고리 (텍스트 형식 : 대부분 부서 이름 또는 예산 이름)가 자선 단체에 비용을 지출 할 가능성이 더 높고 어느