rdd

1열

1답변

Apache Spark에서 Set 유형의 두 개의 RDD를 추가/연결합니다.

Spark RDD로 작업하고 있습니다. 두 개의 RDD (Set)를 추가/연결해야합니다. scala> var ek: RDD[Set[Int]] = sc.parallelize(Seq(Set(7))) ek: org.apache.spark.rdd.RDD[Set[Int]] = ParallelCollectionRDD[31] at parallelize at <cons

-1열

1답변

combineByKey를 사용하여 출력을 (키, 반복 가능 [값])으로 가져옵니다.

groupByKey 메서드에서 반환되는 출력과 마찬가지로 RDD(key,value)을 RDD(key,iterable[value])으로 변환하려고합니다. 그러나 groupByKey이 효율적이지 않아서 대신 combineByKey을 RDD에 사용하려하지만 작동하지 않습니다. 다음은 사용되는 코드입니다 : val data= List("abc,2017-10-04,

0열

1답변

어떻게 apache가 non-rdd가 System.out을 좋아하는 것을 촉발합니까?

반복기 (쓸만한 동안) 또는 non-rdd를 쓸 때 어떻게 실제로 non-rdd 프로세스를 실행하고 어떻게 처리 하는가? 이 작업이 드라이버에서 핸들이 public static void main(String[] args) { JavaSparkContext sc = ....; int sum=0; for(int i=0; 0<10000

1열

1답변

igniteRDD를 생성하는 데 필요한 메모리를 계산하는 방법

누구나 이해할 수 있습니까? IgniteRDD에 문자열, 긴 변수 및 int 변수를 저장하는 방법으로 메모리 계산이 어떻게 완료됩니까? 포럼에 가서 다른 답변을 찾았으며 응용 프로그램의 메모리 요구 사항을 계산하는 방법에 대해 완전히 혼란 스럽습니다. 2 개의 문자열, 1 개의 int 및 2 개의 긴 변수를 사용하여 480 억 개의 레코드를 계산하려고합니다

1열

1답변

2 개의 희소 행렬 곱하기

텍스트 파일에서 생성 된 두 개의 희소 행렬을 곱하려고합니다. 현재 다음 코드를 가지고 있습니다 : import org.apache.spark.SparkContext import org.apache.spark.SparkConf @SerialVersionUID(123L) case class M_Matrix (i: Long, j: Long, v: Do

0열

1답변

PySpark RDD와 필터 값이 여러

위해 나는 다음과 같은 RDD 보이는이 "없습니다에" '?'내가 가진 레코드를 제외 할 myRDD: [[u'16/12/2006', u'17:24:00'], [u'16/12/2006', u'?'], [u'16/12/2006', u'']] 또는 안에 ''. 다음 코드는 하나씩 필터링을 수행하지만 항목을 결합하고 '?'로 필터링하는 방법이 있습니다. 그

1열

1답변

어떻게 rdds

내가 텍스트 파일에서 RDD를 생성하는 아래 코드를 특정 번호로 RDD 나눌 수 있습니다?

1열

2답변

Spark - 데이터 세트의 일부 컬럼에 UDF를 적용하고 새 컬럼을 형성하십시오.

데이터 유형의 문자열 유형이 있으며이 데이터 세트의 일부 컬럼에 함수를 적용하여이를 Long 또는 Double 또는 Int 등으로 변환하려고합니다. 열을 추가하고 새 열 (또는이 열의 튜플)을 동일한 데이터 세트에 추가합니다. 누군가가이 작업을 수행하는 올바른 방법을 제안 할 수 있습니까? UPDATE : 다음은 실패이 val ds: Dataset[(Str

0열

1답변

PySpark 내가 PySpark을 사용하고

에 큰 스파크 데이터 프레임의 행의 각 부분 집합에지도 작업을하고, 제가하고 싶은 것은 다음과 같다 방법 :는 큰 스파크 데이터 프레임 DF는 모든 레코드를 포함 . 나는이 df에서 'id'열로 나눈 레코드의 각 하위 집합에 대해 병렬 계산을 수행하려고합니다. 다음과 같이 나는 현재의 생각할 수있는 방법은 : 나는 df_agg.rdd.map(my_func)

0열

1답변

SparkSQL rdd 파티션이 캐시 메모리에 맞지 않습니다.

하이브 테이블에서 데이터를 읽는 SparkSQL 쿼리를 실행하려고하는데 특정 임계 값을 초과하면 실패합니다. 매직 넘버의 일종 인 50 만 행 val 500k = spark.sql("""select myid, otherfield, count(*) as cnt from mytable group by otherfield, myid order by cnt de