2014-11-11 4 views
1

나는 코끼리 조련사 NB 분류기를 실행하려면 다음 두 개의 링크 언급 한 사용 설정 자체 테스트를 사용하여두싯 0.9 : 대신 분할 명령

[1] http://tharindu-rusira.blogspot.com/2014/01/naive-bayes-classification-apache-mahout.html
[2] http://chimpler.wordpress.com/2013/03/13/using-the-mahout-naive-bayes-classifier-to-automatically-classify-twitter-messages/

가 싶습니다

사용하기 내 데이터를 훈련 및 테스트 세트로 나누는 대신에 내 자신의 테스트 세트 (80:20). 어떻게하면 될까요?

답변

2

테스트 용으로 &을 교육용으로 두 개의 데이터 세트를 가져옵니다. 아래

실행 두 세트에 명령 :
1. seqdirectory
2 seq2sparse 이제

당신이 두 데이터 세트를 생성 벡터를해야합니다.
- 첫 번째 데이터 집합의 벡터 출력을 사용하여 trainnb 명령을 실행합니다. 따라서 데이터의 80 %를 모델로 연습하는 대신 전체 데이터 세트를 사용합니다.
- 두 번째 데이터 집합의 벡터 출력을 사용하여 testnb 명령을 실행합니다. 이것은 데이터의 20 %가 아니며 완전히 새로운 데이터 세트이며 테스트 용도로만 사용됩니다.

그래서 mahout split을 사용하는 대신 모델 테스트를 위해 자체 데이터 세트를 지정했습니다.

+0

이것은 현명한 소리이며, 내가 한 일입니다. 그러나 마흐무트가 결과를 비슷한 비율로 나눈 결과와 완전히 다른 결과가 나왔습니다. 저는 네 가지 범주가 있습니다. 모든 항목이 올바르게 분할되지 않고 그 중 하나에 있다고 판단했습니다. 입력을 나눌 때) – Eyal

+0

내 생각에이 라벨은 labelindex에 연결되어 있습니다. 테스트 및 교육 세트의 라벨이 일치하지 않습니다. 그것은 그럴듯하게 들릴까요? – Eyal

+0

예, 레이블이 동일해야합니다. 우리는 훈련에 사용했던 것과 동일한 레이블 집합을 사용하여 모델을 테스트해야합니다. – Rajkumar