사용의 위험은 (현재 초기 릴리스는, 텍스트가 변경 될 수 있습니다), 저자는 불꽃에 사용자 정의 함수에 대한 Pyspark의 사용에 대해 조언 :스파크 : "스파크 : 확실한 가이드"책에서 파이썬
" 이 파이썬 프로세스를 시작하는 것은 비용이 많이 들지만 실제 비용은 데이터를 파이썬으로 직렬화하는 것입니다. 이것은 두 가지 이유로 값이 비쌉니다. 값 비싼 계산이지만 데이터가 파이썬에 들어가면 Spark가 작업자의 메모리를 관리 할 수 없습니다. JVM과 파이썬이 동일한 머신의 메모리를 차지하기 때문에 리소스가 제한되면 작업자가 실패 할 가능성이 있습니다. "
저는 파이썬과 JVM 사이의 작업자 노드 리소스에 대한 경쟁이 심각한 문제가 될 수 있다는 것을 알고 있습니다. 그러나 그것은 운전자에게도 적용되지 않습니까? 이 경우 Pyspark를 사용하는 것에 대한 논쟁이 될 수 있습니다. 운전자에게 어떤 상황이 다른지 설명해 줄 수 있습니까? 드라이버 응용 프로그램에서
예, 저자는 독점적으로 UDF를 참조하고, 나는 그 질문에이를 표시하려고했습니다. RDD API에 대한 귀하의 의견은 다음과 같습니다. 우리는 동일한 데이터를 사용할 때 두 가지 다른 상황에 여전히 데이터를 저장합니다. 그렇지 않습니까? – MightyCurious