주어진 텍스트의 분위기를 예측할 수있는 시스템을 개발할 계획입니다 (정서 분석).apache mahout을 이용한 감상 분석
나는 또한 엄청나게 큰 데이터이며 시스템이 실시간으로 확장 가능해야하기 때문에 mahout을 선호합니다. 친절하게도 apah mahout이 제공하는 알고리즘을 제안합니다.이 알고리즘은 정서 분석에 적합합니다.
주어진 텍스트의 분위기를 예측할 수있는 시스템을 개발할 계획입니다 (정서 분석).apache mahout을 이용한 감상 분석
나는 또한 엄청나게 큰 데이터이며 시스템이 실시간으로 확장 가능해야하기 때문에 mahout을 선호합니다. 친절하게도 apah mahout이 제공하는 알고리즘을 제안합니다.이 알고리즘은 정서 분석에 적합합니다.
훈련 데이터를 라벨링 한 경우 가장 간단한 감독 학습 알고리즘 인 Naive Bayes classifier을 시도해 볼 수 있습니다 (Mahout이 지원합니다). 그 이유가 충분하지 않은 경우 로지스틱 회귀 등의 더 복잡한 알고리즘을 시도 할 수 있습니다.
레이블이없는 데이터가있는 경우 운이 없으면 작동해야합니다 (예 : Amazon's Mechanical Turk을 통해 귀하의 데이터에 라벨을 지정하기 위해 고용)
그런데 데이터의 크기는 어느 정도입니까? (그게 최대 몇 백 기가 바이트면 그 유형의 모델을 훈련시키기 위해 hadoop/mahout이 필요하지 않습니다. 물론 데이터가 이미 hadoop에 있어야합니다.)
프리랜서에게 라벨을 아웃소싱했습니다. 교육 데이터는 약 500MB이며 시스템은 hadoop 클러스터에 배포됩니다. 당신의 응답을 주셔서 감사합니다. – Greenhorn
분 류자,하지만 더 자세히 설명해야합니다. 입력은 무엇이고, 출력은 무엇이고, 눈금은 무엇이고, 무엇을 시도했는지, 작동하지 않는 것은 무엇입니까? –
안녕하세요, 입력은 텍스트 파일의 문자 스트림입니다. 출력은 극성 (음, 양수, 중립)으로 작성자의 분위기를 반영합니다. 나는 이것으로 시작하고 적절한 분류자를 선택할 때 제안 할 필요가있다. – Greenhorn