2012-05-19 4 views
3

Mahout 결정 트리 트레이닝 프로세스의 출력 모델을 Weka 기반 분류 자의 입력 모델로 사용하고 싶습니다.Mahout 모델 출력을 Weka 입력으로 내보내기

수백만 개의 교육 레코드를 기반으로하는 복잡한 의사 결정 트리의 교육은 단일 노드 Weka 분류 자에게는 거의 비현실적이므로 Mahout을 사용하여 모델을 작성합니다 (예 : Random Forest Partial Implementation).

위의 알고리즘은 학습하는 동안 문제가 될 수 있지만 단일 시스템에서 Weka를 사용하여 예측하는 데 오히려 간단합니다.

Mahout wiki site에는 가져 오기의 데이터 형식에 Weka ARFF 형식이 포함되지만 내보내기에는 해당되지 않는다고 명시되어 있습니다.

는 간단한 웨카 기반 시스템과 생산에 사용됩니다 모델을 양성하는 두싯에있는 기존 구현의 일부를 사용할 수 있습니까?

답변

1

당신이 묻는대로 할 수 없다고 생각합니다. .arff는 가져 오기/내보내기 메뉴의 다른 모든 옵션과 마찬가지로 데이터 형식입니다. Weka가 저장 /로드 할 수있는 분류기는 실제로 Weka의 Java Classifier 객체가 Java의 Serializable 인터페이스를 사용하여 파일에 기록 된 것입니다. 그것들은 그것들을 생성하는 JVM보다 더 오래 지속되는 Java 객체이기 때문에 이식 가능한 트리가 많지 않습니다. 따라서, 당신이 원하는 것을하기 위해서, Mahout이나 Weka는 서로의 코드를 생성/읽을 수 있어야합니다. 그것은 내가 어떤 문서를 찾을 수있는 것이 아닙니다.

내 경험에 따르면 기본 옵션을 사용하는 Weka의 랜덤 포리스트 구현은 매우 빠릅니다 (하나의 2.26GHz 코어에서 몇 초 만에 작동합니다). Mahout을 귀찮게하는 것은 필요하지 않을 수도 있습니다. 데이터 세트에 따라 결과가 다를 수 있습니다.

+0

Weka의 Random Forest와 관련이 있을지 모르지만 그 메모리 요구 사항은 사소하지 않으며 다른 알고리즘에서는 훨씬 더 나쁩니다. Mahout을 사용한 교육의 용이함을 정말 좋아했지만 느린 예측 시간은 싫어했습니다. – Guy

+1

참. 봤어 : [link] (https://code.google.com/p/fast-random-forest/wiki/SpeedAndMemoryUse)? 이 링크를 weka에서 사용할 수 있으며 링크의 sharts는이 RF 구현이 CPU 시간과 메모리에서 더 쉽다고 제안합니다. 필자가 직접 테스트하지는 않았지만 그 정확성을 검증 할 수있는 것을 찾을 수는 없지만, 이것과 기본 RF 구현의 일부 데이터를 사용하여 작은 테스트를 쉽게 수행 할 수 있으며 결과가 비교 가능한지 확인할 수 있습니다. – kaz

+0

좋은 링크지만 자바와 싱글 머신에서 Weka의 문제가되는 점을 증명하는 것만 보여줍니다. 상대적으로 작은 데이터가있는 한 작동합니다. Mahout의 약속은 더 큰 규모의 문제를 해결하는 것입니다. 어떻게 우리는이 말과 코끼리를 결합하여 실생활의 대규모 응용 프로그램을 만들 수 있습니까? – Guy