tm

    0

    2답변

    pdf 파일에서 텍스트를 추출하고 코퍼스 객체를 생성했습니다. 텍스트 내에서 ","또는 "-"로 끝나는 줄이 있으며 동일한 문장에 속하기 때문에 다음 줄을 추가하고 싶습니다. 예를 들어 나는 [1566] "this and other southeastern states (Eukerria saltensis," [1567] "Sparganophilus hel

    2

    1답변

    실제로 naive bayes 알고리즘을 사용하여 트위터 데이터를 기반으로 한 정서 분석을 수행하려고합니다. 나는 2000 개의 트윗을 살펴 본다. R 스튜디오로 데이터를받은 후 나는 분할과 날짜를 사전 처리를 다음과 같이 train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_su

    1

    1답변

    0.6-2 버전의 tm 라이브러리를 설치하려고합니다. archive에서 tar.gz 파일을 다운로드했으며 RStudio에서 Tools -> Archive -> Package Archive File을 선택하여 설치했습니다. 그러나 다음과 같은 오류가 발생합니다. 누군가가 저를 해결하는 데 도움을 줄 수 있습니다이하십시오 installing source pac

    1

    1답변

    저는 유니버스와 바이 그램이있는 코퍼스에 대해 2 개의 문서 - 용어 행렬을 만들려고합니다. 그러나 bigram 행렬은 현재 unigram 행렬과 동일하므로 왜 그럴지 잘 모르겠습니다. 코드 : docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices BigramT

    0

    1답변

    tm 패키지를 사용하여 만든 문서 모음이 있고 동일한 패키지를 사용하여 문서 용어 행렬을 만들었습니다. k-means 클러스터링을 사용하여 문서를 클러스터하고 싶습니다. 유클리드 거리를 사용하기 때문에 먼저 벡터를 정규화하여 유클리드가 의미를 갖도록합니다. 그러나 정규화 할 때 하나의 특정 문서에 대해 'NaN'값이 만들어지며 그 이유를 알 수 없습니다.

    0

    1답변

    R의 tm 패키지에서 findAssocs 함수를 사용하여 주어진 단어 집합과 관련된 모든 단어를 찾습니다. 반환 된 결과는 단어와 관련이없는 단어를 표시합니다. 예를 들어, 아래 출력에서 ​​"new"라는 단어는 최소 상관 관계가 0.7 인 단어와 관련이 없습니다. 그래서 저는이 모든 단어들을 제거하고 연관성이있는 단어들의 벡터를 만들고 싶습니다. 이 경우

    0

    1답변

    방금 ​​R의 tm 패키지에 대해 알게되었습니다. 폴더에 별도의 .txt 파일이있는 경우이 파일을 R의 파일 형식으로 변환하는 방법을 알고 있습니다.하지만 특정 경우에는 모든 텍스트 데이터가 하나의 파일에 있습니다. 해당 파일의 각 문장은 하나의 문서를 나타내며 앞뒤에 구 ID 및 문장 ID가 있습니다. .tsv 형식 파일은 다음과 같습니다 : Phrase

    1

    1답변

    나는 단락의 첫 번째 문자 인 경우에만 코퍼스에서 아포스트로피를 제거하려고합니다. 문장에서 첫 단어를 찾는 것에 관한 글은 보았지만 단락은 발견하지 못했습니다. 내가 텍스트를 분석하고 있기 때문에 내가 이것을 시도하는 이유가 있습니다. 모든 구두점을 지우고 싶지만 아포스트로피와 대시는 단어 중간에 에만 사용하십시오.. 이 작업을 시작하려면, 내가 그랬어 :

    0

    1답변

    행렬을 만들려고합니다. 다음은 R 코드 matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE) : 나는 매트릭스의 대문자와 단어가 발언 lib

    3

    1답변

    으로 표시되지 않습니다. Hadith corpus로 텍스트 분석 및 텍스트 마이닝을 계획하면서 아랍어로 R에서 작업하기 시작했습니다. 내 질문에 관련된 스레드를 읽었지 만 그럼에도 불구하고 여전히 여기에 실제 기본 (미안, 절대 초보자)을 얻을 수 없습니다. 그래서, 입력 : textarabic.v < - 스캐닝 ("데이터/아랍어 text.txt"인코딩 =