text-mining

    1

    1답변

    두 개의 벡터가 HashMap로 표현되어 있는데 둘 사이의 유사점을 측정하고 싶습니다. 나는 메트릭 다음 코드에서와 같이 코사인 유사성을 사용 public static void cosineSimilarity(HashMap<Integer,Double> vector1, HashMap<Integer,Double> vector2){ double scalar=0.

    -1

    1답변

    트윗의 스트림에서 주제를 감지하는 시스템/알고리즘을 연구 중입니다. 내가 할 수있는 것들 등, 정지 단어, 이모티콘, URL을 제거하고 난 다음과 같이 트윗을 나타내는 생각 해요 : terms = (t1, t2, ..., tk) hashtags = (h1, h2, ..., hn) date = date of tweet 을 다음 트윗 할 때 사이에 유사

    15

    1답변

    에 TM 패키지를 사용하여 여러 말뭉치에 대한 상위 N 자주 용어 dataframe을 확인 궁극적으로 같은 출력 테이블로 끝날 : 정의에 corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] , findFreqTerms(corpus1,N) 반환 N 번

    4

    4답변

    저는 연구원이고 약 30-40 %가 내 결과와 관련되어있는 약 17,000 개의 무료 텍스트 문서가 있습니다. 이미 발생하고있는 단어의 빈도를 표준화하여 결과와 관련된 가장 일반적인 단어 (또는 필요하지 않은 구문)를 결정할 수있는 오픈 소스 도구가 있습니까? 모든 문서는 의료 종사자가 작성하므로 두 문서에 기술적 인 언어가 있고 "the", "it"등과

    2

    1답변

    매우 자주 발생하는 용어 만 사용하여 tm을 사용하여 DocumentTermMatrix를 코퍼스에서 생성합니다. (즉, MinDocFrequency = 50) 이제는 다른 자료를 사용하여 DTM을 만들고 싶지만 이전 자료와 정확히 같은 용어를 썼습니다. (교차 유효성 검사를 위해) 첫 번째 코퍼스와 동일한 방식으로 DTM을 생성하는 경우 더 많거나 적은 용

    0

    1답변

    약 150 만 개의 텍스트 문서를 검색하고 길이가 1에서 4 사이 인 단어 집합을 약 180 만 개 이상의 어구와 대조해야합니다. 각 텍스트 파일에서 n-gram 단어를 추출하는 것은 문제가되지 않으며 매우 빠릅니다. 병목 현상은 어휘와 대조됩니다. 내 어휘가 제대로 색인, MySQL의 테이블에 저장되며,이 같은 각 구절을 조회하고 있습니다 : SELECT

    2

    2답변

    나는 입력으로 제공된 비디오의 텍스트를 추출하여 텍스트 파일에 저장하는 비디오 처리 프로젝트를 진행하고 있습니다. 쓰레기 텍스트뿐만 아니라 단어가, 나는 지금 생성 된 텍스트에서 의미있는 단어를 분리하고 태그로 변환해야합니까? 누구나 API/알고리즘을 제안 할 수 있습니까?

    17

    2답변

    정서 분석을 위해 트윗을 분류 할 수 있도록 이모티콘을 어떻게 처리합니까? 방법 : 오류를 sort.list에 (Y) : 잘못된 입력 감사 이는 이모티콘이 트위터에서와 R에보고 나올 방법은 다음과 같습니다 \xed��\xed�\u0083\xed��\xed�� \xed��\xed�\u008d\xed��\xed�\u0089

    0

    1답변

    에 나는 cluto 형식의 문서 행렬 (matrix)이란 용어가? Cluto File: 2 3 3 1 3 3 4 2 8 Row File: car plane Column File: x y z 해결 방법 : dtm = as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf); rows <- sc

    0

    1답변

    google scholar가 특정 검색어에 대해 제공하는 테스트 스 니펫에서 텍스트를 추출하려고합니다. 텍스트 스 니펫은 제목 아래에 검은 글자로 된 텍스트를 의미합니다. 는 현재 내가 파이썬을 사용하여 HTML 파일을 추출하기 위해 노력하고 있지만, 등등 /div><div class="gs_fl" ... 등 추가 테스트를 많이 포함되어 있습니다. 쉬운 텍