2017-04-15 8 views
0

RDD에서로드해야하는 csc_matrix가 부족합니다. 우리는 RDD 친화적 스파 스 벡터에 csc_matrix을 변환 할 수있는 방법이 있나요pyspark rdd에서 csc_matrix를로드하는 방법

sc.parallelize(my_csc_matrix) 

그러나, RDD 같은 csc_matrix의 직접적인 부하를 지원하지 않습니다?

답변

0

당신은 사용 RDD에로드 할 수 있습니다

rdd = sc.parallelize(my_csc_matrix.toarray()) 

하지만이 방법을로드하여

다시 로딩하는 조밀 한 배열로 csc_matrix을 변환된다. 하지만 어쨌든 위의 코드를 사용하여로드 할 수 있습니다.