text-mining

1열

1답변

두 개의 벡터가 HashMap로 표현되어 있는데 둘 사이의 유사점을 측정하고 싶습니다. 나는 메트릭 다음 코드에서와 같이 코사인 유사성을 사용 public static void cosineSimilarity(HashMap<Integer,Double> vector1, HashMap<Integer,Double> vector2){ double scalar=0.

-1열

1답변

바이 그램 표현 방법

트윗의 스트림에서 주제를 감지하는 시스템/알고리즘을 연구 중입니다. 내가 할 수있는 것들 등, 정지 단어, 이모티콘, URL을 제거하고 난 다음과 같이 트윗을 나타내는 생각 해요 : terms = (t1, t2, ..., tk) hashtags = (h1, h2, ..., hn) date = date of tweet 을 다음 트윗 할 때 사이에 유사

15열

1답변

내가 문서의 각 세트에서 10 개 개의 가장 빈번한 용어를 찾으려면 내가 <p>R.</p>에 <code>tm</code> 패키지로 만든 여러 <code>TermDocumentMatrix</code>의이 R

에 TM 패키지를 사용하여 여러 말뭉치에 대한 상위 N 자주 용어 dataframe을 확인 궁극적으로 같은 출력 테이블로 끝날 : 정의에 corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] , findFreqTerms(corpus1,N) 반환 N 번

4열

4답변

텍스트 마이닝 - 정규화 된 가장 일반적인 단어

저는 연구원이고 약 30-40 %가 내 결과와 관련되어있는 약 17,000 개의 무료 텍스트 문서가 있습니다. 이미 발생하고있는 단어의 빈도를 표준화하여 결과와 관련된 가장 일반적인 단어 (또는 필요하지 않은 구문)를 결정할 수있는 오픈 소스 도구가 있습니까? 모든 문서는 의료 종사자가 작성하므로 두 문서에 기술적 인 언어가 있고 "the", "it"등과

2열

1답변

주어진 용어가 포함 된 DocumentTermMatix 생성 R

매우 자주 발생하는 용어 만 사용하여 tm을 사용하여 DocumentTermMatrix를 코퍼스에서 생성합니다. (즉, MinDocFrequency = 50) 이제는 다른 자료를 사용하여 DTM을 만들고 싶지만 이전 자료와 정확히 같은 용어를 썼습니다. (교차 유효성 검사를 위해) 첫 번째 코퍼스와 동일한 방식으로 DTM을 생성하는 경우 더 많거나 적은 용

0열

1답변

어휘의 대용량 코퍼스 계산 문구를 통한 스캔

약 150 만 개의 텍스트 문서를 검색하고 길이가 1에서 4 사이 인 단어 집합을 약 180 만 개 이상의 어구와 대조해야합니다. 각 텍스트 파일에서 n-gram 단어를 추출하는 것은 문제가되지 않으며 매우 빠릅니다. 병목 현상은 어휘와 대조됩니다. 내 어휘가 제대로 색인, MySQL의 테이블에 저장되며,이 같은 각 구절을 조회하고 있습니다 : SELECT

2열

2답변

C# 또는 모든 오픈 소스 텍스트 마이닝 API를 사용하여 텍스트 파일에서 의미있는 단어를 따로 분리

나는 입력으로 제공된 비디오의 텍스트를 추출하여 텍스트 파일에 저장하는 비디오 처리 프로젝트를 진행하고 있습니다. 쓰레기 텍스트뿐만 아니라 단어가, 나는 지금 생성 된 텍스트에서 의미있는 단어를 분리하고 태그로 변환해야합니까? 누구나 API/알고리즘을 제안 할 수 있습니까?

17열

2답변

이모티콘 트위터의 센티멘트 분석

정서 분석을 위해 트윗을 분류 할 수 있도록 이모티콘을 어떻게 처리합니까? 방법 : 오류를 sort.list에 (Y) : 잘못된 입력 감사 이는 이모티콘이 트위터에서와 R에보고 나올 방법은 다음과 같습니다 \xed��\xed�\u0083\xed��\xed�� \xed��\xed�\u008d\xed��\xed�\u0089

0열

1답변

CLUTO 문서 기간 매트릭스 TM의 DocumentTermMatrix

에 나는 cluto 형식의 문서 행렬 (matrix)이란 용어가? Cluto File: 2 3 3 1 3 3 4 2 8 Row File: car plane Column File: x y z 해결 방법 : dtm = as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf); rows <- sc

0열

1답변

Google 학자에게서 텍스트를 추출하십시오.

google scholar가 특정 검색어에 대해 제공하는 테스트 스 니펫에서 텍스트를 추출하려고합니다. 텍스트 스 니펫은 제목 아래에 검은 글자로 된 텍스트를 의미합니다. 는 현재 내가 파이썬을 사용하여 HTML 파일을 추출하기 위해 노력하고 있지만, 등등 /div><div class="gs_fl" ... 등 추가 테스트를 많이 포함되어 있습니다. 쉬운 텍