rdd

0열

1답변

처음에는 설명이 유감 스럽다. 안녕하세요, 데이터 형식으로 일부 데이터 (RDD 형식)를 변환하려고하는데 다소 복잡합니다. 필자는 각 항목이 기능이라고하는 행렬 (목록 목록)과 레이블이라는 목록이있는 ROW() 인 RDD를 가지고 있습니다. 이 RDD를 각 행이 단일 기능 목록이고 레이블 인 스칼라 인 Dataframe으로 변환하려고합니다. 알 수 있듯이

1열

1답변

rdd takeSample에서 스파크 작업이 무기한 중지됨

hdfs 경로에서 임의의 파일 샘플을 선택하려고합니다. 다음은 와일드 카드와 일치하는 모든 파일을 컴파일하여 내 RDD에 추가하는 코드 스 니펫입니다. PATH_TO_RAW_DATA = "hdfs:/user/myname/documents/d*" tf = sc.binaryFiles(PATH_TO_RAW_DATA, 100000) 이것은 ~ 5000 개 파

0열

1답변

파일을 스파크의 주 메모리에 넣을 수 없을 때 큰 파일 (피타)을 읽는 방법

대용량 파일의 경우 어떻게됩니까? 1) Spark은 NameNode에서 데이터를 가져옵니다. Name Spark의 정보 당 데이터 크기가 너무 길기 때문에 Spark가 같은 시간에 중지됩니까? 2) 스파크는 데이터 노드 블록 크기에 따라 데이터를 분할하지만 모든 데이터를 주 메모리에 저장할 수 없습니다. 여기서는 StorageLevel을 사용하지 않습니다.

0열

2답변

pyspark 1.6.1에서 rdd를 데이터 프레임으로 변환하는 방법은 무엇입니까?

rdd를 데이터 프레임으로 변환하고 pyspark 1.6.1에서 데이터 프레임을 rdd로 다시 변환하는 방법에 대한 예제가 있습니까? toDF()은 1.6.1에서 사용할 수 없습니까? 예를 들어,이 같은 RDD 있습니다 data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a',

0열

2답변

RDD (스칼라)에 중첩 forloop

나는 다음과 같은 구조를 가진 RDD를 만드는 방법 : ((ByteArray, Idx), ((srcIdx,srcAdress), (destIdx,destAddress))) 이쪽 비트 코인의 blockchain의 가장자리 (트랜잭션)의 표현입니다. (ByteArray, Idx)은 식별자로 볼 수 있으며 나머지는 가장자리입니다. 내 궁극적 인 목표는 블록 체인의

0열

1답변

null을 포함하여 RDD의 모든 레코드를 제거하는 방법은 무엇입니까?

CSV 파일에서 RDD을로드했습니다. 그러나이 파일에는 잘못된 데이터가 포함되어 있습니다. 그래서,이 RDD의 연락처를 first으로 출력하려고했을 때. java.lang.NumberFormatException의 : 예외에 의한 이다 빈 문자열 나는 하나 개의 레코드는 빈 문자열을 포함 할 때 RDD의 모든 레코드를 제거하기 위해 해결책을 찾기 위해 희망

0열

2답변

스칼라지도 필터링 방법

저는 Scala와 Spark를 처음 사용합니다. 텍스트 파일의 중복 행을 제거하려고합니다. 이건 내 프로그램 -4.5, -4.2,2.7 : 각 행은 세 같은 열 (벡터 값)을 포함 import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.rd

1열

1답변

값 검색이 내 전체 샘플 코드입니다 org.apache.spark.rdd.RDD

의 구성원이 아닌 : 나는 다음 줄을 실행하면 package trouble.something import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object Stack { val conf = new Spar

1열

2답변

그룹화 된 Spark RDD 컨텐츠를 개별 라인으로 전개 한 다음 파일에 저장하는 방법

키 (인덱스 : Int)별로 그룹화 된 RDD [(Int, Iterable [Coordinates])]가 있습니다. 좌표는 회원들과 클래스 : index,latitude,longitude 으로 : latitude: Double, longitude: Double 내가 인쇄를 만들거나 csv 파일을 생성하고 싶은, 그 형식은 다음 (각 데이터 포인트에 대한

0열

1답변

제 RDD의 값이 제 RDD의 키

두 가지 rdds, 첫 번째는 (키, 값) 쌍 rdd_1이다 여기서 스파크 두 rdds 참여) 쌍 rdd_2 : (key2, value3), (key3, value4)... 내가 rdd1 및 rdd2에 가입 원하는 rdd_1의 value1 & value2는에서 key2입니다. key1,[value1, value2] -> (key1, value1),(ke