text-mining

0열

3답변

나는 백만 단어를 가진 텍스트 문서를 가지고있다. 이제는 R을 사용하여 단어의 후행 및 선행 단어를 찾는 방법을 알아야합니다. 예를 들어, "오류"라는 단어 앞뒤에 오는 단어를 찾고 싶습니다. 그것은 주요 단어 "typo error" "manual error" "system error" 과이 작업을 수행하는 방법에 "error corrected"

1열

3답변

코퍼스에서 모든 대문자를 찾는 방법 R

그래서 저는 문서 자료를 가지고 있으며 모든 문서에서 모든 대문자 (즉, 그 단어의 모든 문자가 모든 문자)를 찾아야합니다. 나는 그걸 어떻게 발견 할 지 모르겠다. 필자는 R에서 텍스트 마이닝 'tm'패키지를 살펴 봤으며 찾을 수있는 함수가 없다. 입력 문자열 : "Russia Is THE BiggEST cOUNTRY" 출력이 필요합니다 : "THE" 방

-4열

1답변

R의 영숫자 열에서 문자를 제거 하시겠습니까?

데이터 프레임의 영숫자 벡터에서 문자를 제거하는 코드를 찾고 있습니다. 다음이 내 데이터 열 : F9667968CU 67968PX11 3666SP 6SPF10 2323DL1 23DVL10 2016PP07 그리고 이것이 내가 사용한 코드 : 아래 for(i in 1: length(rownames(testsample))) { tests

0열

2답변

오류가 initCoreNLP에서 특별히 "annoators"

내가 rJAVA, NLP, openNLP, coreNLP 패키지 thorugh coreNLP 패키지를 & 스탠포드 파서를 사용했다 여기에, 모든 작품, 내 코드 어제 동안 sent_token_annotator <- Maxent_Sent_Token_Annotator() word_token_annotator <- Maxent_Word_Token_Annotat

0열

1답변

TextMining의 코퍼스는 명시 적 상위 유형 변환이 필요합니다.

줄리아의 text mining module으로 실험 중입니다. 내가 즉, 나는 변환 오류가있어 , 함께 Corpus 기능을 먹일 때 나는이 코드 조각을 가지고 convert(Vector{GenericDocument})을 적용 할 필요가 using Lazy, TextMining, DataArrays @>> @data(["hello","bro"]) map(

0열

1답변

Quanteda - 확인 된 사전 단어 추출

Quanteda dfm에서 식별 된 사전 단어를 추출하려고하지만 해결책을 찾지 못했습니다. 다른 사람이 해결책이 있습니까? 샘플 입력 : dict <- dictionary(list(season = c("spring", "summer", "fall", "winter"))) dfm <- dfm("summer is great", dictionary = dict

0열

1답변

R에서 단어로 시작하는 문장을 제거 하시겠습니까?

나는 다음과 같은 트윗이 실제로 아래의 문자열을 반환하도록 (중복 트윗을 제거하기 위해) "RT @SportClipsUT125: #SavingLivesLooksGood with #RedCross. Donate this month & Get free haircut cpn. https://somewebsite https://somewebsite…"

-2열

1답변

TermDocumentMatrix에서 행을 하나의 행으로 결합하는 방법은 무엇입니까?

스피 TermDocumentMatrix (나는 모든 행이 각각의 단어를 나타내는 알) '오두막, 직원 및 승무원'samething을 의미하기 때문에 ex) cabin, staff -> crews , 스피 결합하는 시도에 행의에 행을 결합하는 시도 '승무원, 직원'을 나타내는 행 은 '승무원'을 나타내는 한 행에 표시됩니다. 하지만 전혀 작동하지 않습니다.

0열

1답변

자바에서 역 색인 생성 방법

자바에서 역 색인을 만들고 싶습니다. 나는 1400 개의 텍스트 파일을 가지고있다. 각 단어/단어의 빈도를 계산할 수있었습니다. 나는 단어가 전체 컬렉션에 나타나는 횟수를 반환 할 수 있었지만 단어가 나타나는 문서를 반환 할 수 없었습니다. 이것은 지금까지 가지고있는 코드입니다. 결과를 다음과 같이 입력하고 싶습니다. 다음 형태 용어 1 : DOC1 : 2

-1열

1답변

R- 빈 문자열 요소에 도달 할 때까지 문자 벡터의 연속 요소를 반복적으로 결합합니다.

아래에 설명 된 것과 같이 긴 문자열 (영숫자 + 특수 문자)로 구성된 문자 벡터가 있습니다. 필요 txt <- c( "Spicy jalapeno bacon ipsum dolor amet", "tenderloin. pariatur quis", "", "consequat pancetta jerky", "po