0
Apache Spark 설명서를 읽은 후 mapPartition 모듈을 실험 해 보았습니다. 다음 코드에서는 함수에서와 같이 초기 RDD를 볼 것으로 예상했습니다. myfunc
값을 인쇄 한 후 반복기를 다시 반환합니다. 그러나 RDD에서 collect
을 할 때 그것은 비어 있습니다.pyspark에서 mapPartitions 사용 방법
from pyspark import SparkConf
from pyspark import SparkContext
def myfunc(it):
print(it.next())
return it
def fun1(sc):
n = 5
rdd = sc.parallelize([x for x in range(n+1)], n)
print(rdd.mapPartitions(myfunc).collect())
if __name__ == "__main__":
conf = SparkConf().setMaster("local[*]")
conf = conf.setAppName("TEST2")
sc = SparkContext(conf = conf)
fun1(sc)