2017-09-25 4 views
0

나는 스파크가 생겼고 빠른 푸리에 변환과 svms 등의 분류/회귀와 ​​같은 작업을 수행해야하는 스트리밍 응용 프로그램을 작성해야합니다. 파이썬의 거대한 다양성 때문에 pyspark에서이 작업을 수행하고 싶습니다. numpy, scikit-learn 같은 모듈. 내 질문은, 스트리밍 응용 프로그램에서 그런 것들을 할 수 있습니까? 내가 아는 한, spark는 dstream을 사용합니다. 이 스트림은 numpy 배열 또는 파이썬 함수의 입력으로 사용할 수있는 비슷한 것과 비슷합니까?pyspark 스트리밍은 기계 학습/과학 컴퓨팅에 적합합니까?

Pyspark 파이썬 언어로 코딩되는 스파크에 프로그램/코드/알고리즘을 실행하는 데 사용되는

답변

0

들으.

기계 기울이기 위해 spake에는 MLlib 라이브러리 패키지가 있습니다.

는 스트리밍 목적을 위해, 스파크 당신은 폭풍을 탐색 할 수 있습니다 LIB 패키지

뿐만 아니라에 대한 실시간 스트리밍 스트리밍 스파크있다.

+0

괜찮 았지만 한 번에 두 가지 방법 (스트리밍과 기계 학습)을 모두 수행 할 수 있습니까? – maxE

0

기계 학습은 데이터로부터 학습하는 과정입니다. 먼저 모델을 교육 한 다음 데이터 스트림 위에 사용하십시오. 데이터는 특정 시간에 생성되는 데이터의 양에 따라 미니, 마이크로 또는 실시간으로 처리 될 수 있습니다. Flume 및 Kafka는 HDFS에서 실시간으로 데이터를 가져 오거나 저장하는 데 사용되거나 flume sink를 가리키는 Spark 스트리밍으로 Spark에 공급할 수 있습니다.