2017-09-03 4 views
-1

Spark에서 여러 ML 알고리즘을 병렬 처리하는 방법이 있습니까? 제 유스 케이스는 다음과 같습니다. A) 병렬로 여러 머신 학습 알고리즘 (Naive Bayes, ANN, Random Forest 등)을 실행하십시오. 1) 십진 교차 유효성 확인을 사용하여 각 알고리즘의 유효성을 확인하십시오. B) 2 단계 시스템 학습 알고리즘에서 단계 A)의 결과를 입력하십시오. 내 질문 : 병렬로 A 단계에서 여러 기계 학습 알고리즘을 실행할 수 있습니까? 교차 검증을 병렬로 수행 할 수 있습니까? Naive Bayes 교육을 10 번 반복해서 실행하는 것과 비슷합니까?Apache Spark : 다중 기계 학습 알고리즘의 병렬화

다른 알고리즘을 병렬로 실행할 수있는 방법을 찾지 못했습니다. 그리고 교차 검증은 또한 동시에 수행 될 수없는 것처럼 보입니다. 이 사용 사례를 병렬화하기위한 제안에 감사드립니다.

답변

0

나는 일반적으로 분산 형 단어로 ​​혼동하는 사람들을 찾습니다. 모든 프로그래밍 언어 또는 ML 알고리즘은 배포되지 않습니다. 실행 엔진의 수집 (데이터 구조)에 따라 다릅니다. 예를 들어 스칼라가 배포되지 않았거나 더 구체적으로 스칼라의 컬렉션이 배포되지 않았습니다. 스파크 (Spark)와 같은 거대한 데이터 도구는 컬렉션을 배포하여 자체 데이터 구조로 감싸는 데 사용할 수 있습니다. 그렇습니다. 저는 RDD, Dataframes, LableledPoints, Vectors에 대해 이야기하고 있습니다. 이러한 구조는 파티션에 따라 컴퓨팅을 병렬화합니다.

질문에 대답하려면 기계 학습을 수행 할 데이터가 특정 n 크기 클러스터의 노드에 분산되어 있기 때문에 병렬 학습 모드에서 기계 학습을 실행할 수 있습니다.