Mahout 결정 트리 트레이닝 프로세스의 출력 모델을 Weka 기반 분류 자의 입력 모델로 사용하고 싶습니다.Mahout 모델 출력을 Weka 입력으로 내보내기
수백만 개의 교육 레코드를 기반으로하는 복잡한 의사 결정 트리의 교육은 단일 노드 Weka 분류 자에게는 거의 비현실적이므로 Mahout을 사용하여 모델을 작성합니다 (예 : Random Forest Partial Implementation).
위의 알고리즘은 학습하는 동안 문제가 될 수 있지만 단일 시스템에서 Weka를 사용하여 예측하는 데 오히려 간단합니다.
Mahout wiki site에는 가져 오기의 데이터 형식에 Weka ARFF 형식이 포함되지만 내보내기에는 해당되지 않는다고 명시되어 있습니다.
는 간단한 웨카 기반 시스템과 생산에 사용됩니다 모델을 양성하는 두싯에있는 기존 구현의 일부를 사용할 수 있습니까?
Weka의 Random Forest와 관련이 있을지 모르지만 그 메모리 요구 사항은 사소하지 않으며 다른 알고리즘에서는 훨씬 더 나쁩니다. Mahout을 사용한 교육의 용이함을 정말 좋아했지만 느린 예측 시간은 싫어했습니다. – Guy
참. 봤어 : [link] (https://code.google.com/p/fast-random-forest/wiki/SpeedAndMemoryUse)? 이 링크를 weka에서 사용할 수 있으며 링크의 sharts는이 RF 구현이 CPU 시간과 메모리에서 더 쉽다고 제안합니다. 필자가 직접 테스트하지는 않았지만 그 정확성을 검증 할 수있는 것을 찾을 수는 없지만, 이것과 기본 RF 구현의 일부 데이터를 사용하여 작은 테스트를 쉽게 수행 할 수 있으며 결과가 비교 가능한지 확인할 수 있습니다. – kaz
좋은 링크지만 자바와 싱글 머신에서 Weka의 문제가되는 점을 증명하는 것만 보여줍니다. 상대적으로 작은 데이터가있는 한 작동합니다. Mahout의 약속은 더 큰 규모의 문제를 해결하는 것입니다. 어떻게 우리는이 말과 코끼리를 결합하여 실생활의 대규모 응용 프로그램을 만들 수 있습니까? – Guy