3

주어진 텍스트의 분위기를 예측할 수있는 시스템을 개발할 계획입니다 (정서 분석).apache mahout을 이용한 감상 분석

나는 또한 엄청나게 큰 데이터이며 시스템이 실시간으로 확장 가능해야하기 때문에 mahout을 선호합니다. 친절하게도 apah mahout이 제공하는 알고리즘을 제안합니다.이 알고리즘은 정서 분석에 적합합니다.

+0

분 류자,하지만 더 자세히 설명해야합니다. 입력은 무엇이고, 출력은 무엇이고, 눈금은 무엇이고, 무엇을 시도했는지, 작동하지 않는 것은 무엇입니까? –

+0

안녕하세요, 입력은 텍스트 파일의 문자 스트림입니다. 출력은 극성 (음, 양수, 중립)으로 작성자의 분위기를 반영합니다. 나는 이것으로 시작하고 적절한 분류자를 선택할 때 제안 할 필요가있다. – Greenhorn

답변

3

훈련 데이터를 라벨링 한 경우 가장 간단한 감독 학습 알고리즘 인 Naive Bayes classifier을 시도해 볼 수 있습니다 (Mahout이 지원합니다). 그 이유가 충분하지 않은 경우 로지스틱 회귀 등의 더 복잡한 알고리즘을 시도 할 수 있습니다.

레이블이없는 데이터가있는 경우 운이 없으면 작동해야합니다 (예 : Amazon's Mechanical Turk을 통해 귀하의 데이터에 라벨을 지정하기 위해 고용)

그런데 데이터의 크기는 어느 정도입니까? (그게 최대 몇 백 기가 바이트면 그 유형의 모델을 훈련시키기 위해 hadoop/mahout이 필요하지 않습니다. 물론 데이터가 이미 hadoop에 있어야합니다.)

+0

프리랜서에게 라벨을 아웃소싱했습니다. 교육 데이터는 약 500MB이며 시스템은 hadoop 클러스터에 배포됩니다. 당신의 응답을 주셔서 감사합니다. – Greenhorn