Spark에서 DataFrames로 작업 할 때 DataFrame에서 특정 열의 값만 편집해야하는 경우가 있습니다. 예를 들면. 내 데이터 프레임에 count
필드가 있고 count
의 모든 값에 1
을 추가하려면 DataFrames의 withColumn
기능을 사용하여 작업을 완료하기 위해 사용자 정의 udf를 작성하거나 map
을 수행 할 수 있습니다. DataFrame에 저장 한 다음 결과 RDD에서 다른 DataFrame을 추출하십시오.지도와 udf의 차이점
내가 알고 싶은 것은 udf가 실제로 두포에서 어떻게 작동하는지입니다. 이 경우 map/udf를 사용하여 비교해보십시오. 성능 차이는 무엇입니까?
감사합니다.
http://stackoverflow.com/q/38860808/1560062 – zero323