text-mining

    -1

    1답변

    여러 비정형 문서 (PDF 및 HTML)가 있습니다. 이러한 구조화되지 않은 문서는 예측 가능한 패턴을가집니다. 그리고 이러한 패턴의 'n'인스턴스가 있습니다. 이 문서에서 정보를 추출하는 프로그램을 작성해야합니다. 프로그램은 특정 패턴에 대해 훈련 된 후에는 동일한 패턴의 다른 문서에서 자동으로 데이터 포인트를 선택해야합니다. 이 프로그램을 작성하는 데

    0

    1답변

    나는 5 개의 문서로 된 텍스트 코퍼스를 가지고 있으며 모든 문서는/n으로 서로 분리되어 있습니다. 문서의 모든 단어에 ID를 제공하고 해당 tfidf 점수를 계산하고 싶습니다. 예를 들어 다음과 같이 우리가 "corpus.txt"라는 텍스트 말뭉치가 있다고 가정 : - mylist =list("corpus.text") vectorizer= CountVe

    0

    1답변

    나는 파일 이름 확장명을 .doc로 변경하려고합니다. 아래 코드를 시도하고 있지만 작동하지 않습니다. 어째서? 내가 here startingDir<-"C:/Data/SCRIPTS/R/TextMining/myData" filez<-list.files(startingDir) sapply(filez,FUN=function(eachPath){ fi

    2

    1답변

    데이터 행에서 패턴을 검색 한 다음 새 테이블의 별도 열에 저장할 수있는 방법이 있습니까? 나는 아래의 몸에서 양, 지폐와 동전을 추출하기 위해 당신이 R user_id | ts | body | address | 3633| 2016-09-29| A wallet with amount = $ 100 has been found with 4

    0

    1답변

    트위터 데이터가 포함 된 txt 파일이 있습니다 (단 하나의 파일). streamR과 parseTweets 함수를 사용하여 R에로드했습니다. 이 데이터에 대해 Kmeans 클러스터링을 수행해야합니다. 먼저, 데이터를 정리하고 준비해야하지만, 데이터는 숫자의 조합입니다. 문자로 처리 할 수없는 문자 (예 : 콘텐츠 변환). 이 데이터에서 원하지 않는 문자를

    1

    1답변

    R의 qdap 패키지를 사용하여 맞춤법 검사를하고 있습니다. 나는 아래의 코드를 실행하고 있습니다 단어 이해하게하지만,이에 대한 수정이 우리가 필터링 할 수있는이 기능에 대한 우리의 사용자 지정 단어 목록을 줄 수있는 옵션 irrelevant.Is있는이 which_misspelled("I use a 50Gb broadband connection") >

    2

    1답변

    텍스트 마이닝 연습을 도울 수 있기를 바랍니다. 나는 'AAPL'트윗에 관심이 있었고 API에서 500 개의 트윗을 가져올 수있었습니다. 나는 여러 장애물을 스스로 해결할 수 있었지만 마지막 부분에 도움이 필요합니다. 어떤 이유로 tm 패키지가 불용어를 제거하지 않고 있습니다. 좀 봐 주시고 문제가 무엇인지 보시겠습니까? 이모티콘으로 인해 문제가 발생합니까

    1

    1답변

    동일한 텍스트에서 추출한 텍스트와 몇 개의 키워드 (빈도 수가 200을 기준으로 추출됨) 간의 상관 관계 분석을 시도하고 있습니다. R을 사용하여 어떻게 할 수 있는지 확실하지 않습니다. 여기 는 국지적 인 주요 데이터가 R의 수준으로 (기본적으로) 내가하려고 head(label) [1] "2016" "action" "activis" "actual" "a

    -2

    1답변

    나는 텍스트 마이닝 프로젝트를 진행 중이며 TM 패키지를 사용하여 R에서 희소 행렬을 만들었습니다. 데이터는 아래에 언급 된 형식으로되어 있습니다 : Sample Data format 내가 아래 형식으로 원하는 : Resultant Data Format 데이터는 논쟁과 관련하여 도움이 필요하십니까. dplyr 및 tidyr를 사용하여

    1

    2답변

    'Kindertoekomst'와 'kind'가 포함 된 모든 단어를 대체하고 싶습니다. 정상적으로 처리 할 수 ​​있습니다. Woorden<-c("kinderen", "kleinkind") Woorden[grepl("kind", Woorden)]<-"Kindertoekomst" 하지만 코퍼스 내에서 처리하고 싶습니다. 나는 Kind<-grepl("ki