text-mining

-1열

1답변

여러 비정형 문서 (PDF 및 HTML)가 있습니다. 이러한 구조화되지 않은 문서는 예측 가능한 패턴을가집니다. 그리고 이러한 패턴의 'n'인스턴스가 있습니다. 이 문서에서 정보를 추출하는 프로그램을 작성해야합니다. 프로그램은 특정 패턴에 대해 훈련 된 후에는 동일한 패턴의 다른 문서에서 자동으로 데이터 포인트를 선택해야합니다. 이 프로그램을 작성하는 데

0열

1답변

텍스트 코퍼스를 vocabulary_id와 해당 tfidf 점수로 텍스트 문서로 변환

나는 5 개의 문서로 된 텍스트 코퍼스를 가지고 있으며 모든 문서는/n으로 서로 분리되어 있습니다. 문서의 모든 단어에 ID를 제공하고 해당 tfidf 점수를 계산하고 싶습니다. 예를 들어 다음과 같이 우리가 "corpus.txt"라는 텍스트 말뭉치가 있다고 가정 : - mylist =list("corpus.text") vectorizer= CountVe

0열

1답변

파일 확장자 이름 바꾸기 R

나는 파일 이름 확장명을 .doc로 변경하려고합니다. 아래 코드를 시도하고 있지만 작동하지 않습니다. 어째서? 내가 here startingDir<-"C:/Data/SCRIPTS/R/TextMining/myData" filez<-list.files(startingDir) sapply(filez,FUN=function(eachPath){ fi

2열

1답변

R의 텍스트 마이닝으로 정보 검색 및 추출

데이터 행에서 패턴을 검색 한 다음 새 테이블의 별도 열에 저장할 수있는 방법이 있습니까? 나는 아래의 몸에서 양, 지폐와 동전을 추출하기 위해 당신이 R user_id | ts | body | address | 3633| 2016-09-29| A wallet with amount = $ 100 has been found with 4

0열

1답변

Kmeans 클러스터링 및 텍스트 마이닝 in R

트위터 데이터가 포함 된 txt 파일이 있습니다 (단 하나의 파일). streamR과 parseTweets 함수를 사용하여 R에로드했습니다. 이 데이터에 대해 Kmeans 클러스터링을 수행해야합니다. 먼저, 데이터를 정리하고 준비해야하지만, 데이터는 숫자의 조합입니다. 문자로 처리 할 수없는 문자 (예 : 콘텐츠 변환). 이 데이터에서 원하지 않는 문자를

1열

1답변

패키지 'qdap'in R

R의 qdap 패키지를 사용하여 맞춤법 검사를하고 있습니다. 나는 아래의 코드를 실행하고 있습니다 단어 이해하게하지만,이에 대한 수정이 우리가 필터링 할 수있는이 기능에 대한 우리의 사용자 지정 단어 목록을 줄 수있는 옵션 irrelevant.Is있는이 which_misspelled("I use a 50Gb broadband connection") >

2열

1답변

주식 트윗, 텍스트 마이닝, 이모티콘

텍스트 마이닝 연습을 도울 수 있기를 바랍니다. 나는 'AAPL'트윗에 관심이 있었고 API에서 500 개의 트윗을 가져올 수있었습니다. 나는 여러 장애물을 스스로 해결할 수 있었지만 마지막 부분에 도움이 필요합니다. 어떤 이유로 tm 패키지가 불용어를 제거하지 않고 있습니다. 좀 봐 주시고 문제가 무엇인지 보시겠습니까? 이모티콘으로 인해 문제가 발생합니까

1열

1답변

텍스트에서 추출한 텍스트와 특정 단어 사이의 Corelations 찾기

동일한 텍스트에서 추출한 텍스트와 몇 개의 키워드 (빈도 수가 200을 기준으로 추출됨) 간의 상관 관계 분석을 시도하고 있습니다. R을 사용하여 어떻게 할 수 있는지 확실하지 않습니다. 여기 는 국지적 인 주요 데이터가 R의 수준으로 (기본적으로) 내가하려고 head(label) [1] "2016" "action" "activis" "actual" "a

-2열

1답변

어떻게 단어 빈도와 그에 해당하는 단어를 얻으려고합니까

나는 텍스트 마이닝 프로젝트를 진행 중이며 TM 패키지를 사용하여 R에서 희소 행렬을 만들었습니다. 데이터는 아래에 언급 된 형식으로되어 있습니다 : Sample Data format 내가 아래 형식으로 원하는 : Resultant Data Format 데이터는 논쟁과 관련하여 도움이 필요하십니까. dplyr 및 tidyr를 사용하여

1열

2답변

R : 데이터 마이닝. 하위 문자열을 포함하는 단어 바꾸기

'Kindertoekomst'와 'kind'가 포함 된 모든 단어를 대체하고 싶습니다. 정상적으로 처리 할 수 있습니다. Woorden<-c("kinderen", "kleinkind") Woorden[grepl("kind", Woorden)]<-"Kindertoekomst" 하지만 코퍼스 내에서 처리하고 싶습니다. 나는 Kind<-grepl("ki