2014-03-27 1 views
0

저의 목표는 돼지 라틴어로 트윗을 평가하는 것입니다. 사전 (긍정적 인 단어, 부정적인 단어 및 관련없는 단어)으로 사용할 단어 목록이 3 개 있습니다. 이 사전으로 트윗 목록을 평가하고 싶습니다. 나는 트윗의 각 단어를 분석해야한다. 내가 검색 짹짹에게 "프랑스의 성장을"속도가PIG : 트윗에 가치를 부여하십시오

예 :

  • 목록 긍정적 인 단어 : {좋은, 긍정적 인, 좋은, ...}
  • 목록 부정적인 단어 : {나쁜, 경기 침체, ...}
  • 목록 관련이없는 단어 : {독일, 스페인, 올랑드, 오바마, ...}

트윗 : "프랑스의 성장도 다시하고 스페인"=> 분석 각 단어에 대해 : 성장 => 양성, 프랑스 => 양성, 다시 => 양성, 스페인 => 관련 없음 양성 + 양성 + 무관계 = 양성이므로이 트윗은 긍정적이고 관련성이 있습니다.

이 스크립트를 만들려고했습니다. . 영어

+0

귀하의 질문은 무엇입니까? 여기 Xplenty에서 우리는 당신이 묘사 한 것과 비슷한 순진한 감정 분석을 포함하여 소치 동계 올림픽에 대한 트위터 분석을했습니다. 어려움을 어디에서 만났습니까? – SNeumann

+0

스크립트 작성 중 – Archi

+0

답변이 도움이 되었으면 녹색 체크 표시를 클릭하여 '수락'으로 표시하십시오. – SNeumann

답변

0

죄송 스크립트가 어떻게 보일지의 개요 :

  1. 는 트위터 스트림에서 트윗 ID 및 텍스트 필드의 압축을 풉니 다. ID와 텍스트 평평하고 토큰 화 사용하여 다른 필드를 추가

  2. -. 단어에 텍스트 (간단한 공백 토크 나이 또는 NLTK 애호가 뭔가를 사용하여 새로운 기록의 각 단어를 깰 수를 토큰 화

  3. 귀하의 사전에 (2)의 결과를 당신의 짹짹의 각 단어에 긍정적, 부정적 또는 중립적/부적절한 것으로 태그를 붙이십시오 - 당신은 긍정/부정 대신 부호있는 정수 값을 사용하기를 원할 것입니다. 그들 위로.
  4. 그룹 짹짹 ID로 (3)의 결과
  5. 짹짹마다 감정의 합계를 계산

    TweetsRaw = '...'USING JsonLoader (...);

    ...

    트윗 = FOREACH ... TweetID을 생성, 텍스트;

    TokenizedTweets = FOREACH 트윗 GENERATE TweetID, Text, FLATTEN (TOKENIZE (텍스트))를 단어로;

    사전 = LOAD '...'as (DictWord : chararray, polarity : int);

    Labeled_Words = JOIN TokenizedTweets by Word, DictWord by Dictionary;

    GroupedSentiment = GROUP Labeled_Words BY TwitterID, Text;

    결과 = FOREACH GroupedSentiment GENERATE FLATTEN (그룹), SUM (레이블이있는 단어.극성) AS 속도;

    덤프 결과;

+0

고마워요 !!!!!!!!!! – Archi