text-mining

    0

    3답변

    나는 백만 단어를 가진 텍스트 문서를 가지고있다. 이제는 R을 사용하여 단어의 후행 및 선행 단어를 찾는 방법을 알아야합니다. 예를 들어, "오류"라는 단어 앞뒤에 오는 단어를 찾고 싶습니다. 그것은 주요 단어 "typo error" "manual error" "system error" 과이 작업을 수행하는 방법에 "error corrected"

    1

    3답변

    그래서 저는 문서 자료를 가지고 있으며 모든 문서에서 모든 대문자 (즉, 그 단어의 모든 문자가 모든 문자)를 찾아야합니다. 나는 그걸 어떻게 발견 할 지 모르겠다. 필자는 R에서 텍스트 마이닝 'tm'패키지를 살펴 봤으며 찾을 수있는 함수가 없다. 입력 문자열 : "Russia Is THE BiggEST cOUNTRY" 출력이 필요합니다 : "THE" 방

    -4

    1답변

    데이터 프레임의 영숫자 벡터에서 문자를 제거하는 코드를 찾고 있습니다. 다음이 내 데이터 열 : F9667968CU 67968PX11 3666SP 6SPF10 2323DL1 23DVL10 2016PP07 그리고 이것이 내가 사용한 코드 : 아래 for(i in 1: length(rownames(testsample))) { tests

    0

    2답변

    내가 rJAVA, NLP, openNLP, coreNLP 패키지 thorugh coreNLP 패키지를 & 스탠포드 파서를 사용했다 여기에, 모든 작품, 내 코드 어제 동안 sent_token_annotator <- Maxent_Sent_Token_Annotator() word_token_annotator <- Maxent_Word_Token_Annotat

    0

    1답변

    줄리아의 text mining module으로 실험 중입니다. 내가 즉, 나는 변환 오류가있어 , 함께 Corpus 기능을 먹일 때 나는이 코드 조각을 가지고 convert(Vector{GenericDocument})을 적용 할 필요가 using Lazy, TextMining, DataArrays @>> @data(["hello","bro"]) map(

    0

    1답변

    Quanteda dfm에서 식별 된 사전 단어를 추출하려고하지만 해결책을 찾지 못했습니다. 다른 사람이 해결책이 있습니까? 샘플 입력 : dict <- dictionary(list(season = c("spring", "summer", "fall", "winter"))) dfm <- dfm("summer is great", dictionary = dict

    0

    1답변

    나는 다음과 같은 트윗이 실제로 아래의 문자열을 반환하도록 (중복 트윗을 제거하기 위해) "RT @SportClipsUT125: #SavingLivesLooksGood with #RedCross. Donate this month & Get free haircut cpn. https://somewebsite https://somewebsite…"

    -2

    1답변

    스피 TermDocumentMatrix (나는 모든 행이 각각의 단어를 나타내는 알) '오두막, 직원 및 승무원'samething을 의미하기 때문에 ex) cabin, staff -> crews , 스피 결합하는 시도에 행의에 행을 결합하는 시도 '승무원, 직원'을 나타내는 행 은 '승무원'을 나타내는 한 행에 표시됩니다. 하지만 전혀 작동하지 않습니다.

    0

    1답변

    자바에서 역 색인을 만들고 싶습니다. 나는 1400 개의 텍스트 파일을 가지고있다. 각 단어/단어의 빈도를 계산할 수있었습니다. 나는 단어가 전체 컬렉션에 나타나는 횟수를 반환 할 수 있었지만 단어가 나타나는 문서를 반환 할 수 없었습니다. 이것은 지금까지 가지고있는 코드입니다. 결과를 다음과 같이 입력하고 싶습니다. 다음 형태 용어 1 : DOC1 : 2

    -1

    1답변

    아래에 설명 된 것과 같이 긴 문자열 (영숫자 + 특수 문자)로 구성된 문자 벡터가 있습니다. 필요 txt <- c( "Spicy jalapeno bacon ipsum dolor amet", "tenderloin. pariatur quis", "", "consequat pancetta jerky", "po