rdd

    0

    1답변

    처음에는 설명이 유감 스럽다. 안녕하세요, 데이터 형식으로 일부 데이터 (RDD 형식)를 변환하려고하는데 다소 복잡합니다. 필자는 각 항목이 기능이라고하는 행렬 (목록 목록)과 레이블이라는 목록이있는 ROW() 인 RDD를 가지고 있습니다. 이 RDD를 각 행이 단일 기능 목록이고 레이블 인 스칼라 인 Dataframe으로 변환하려고합니다. 알 수 있듯이

    1

    1답변

    hdfs 경로에서 임의의 파일 샘플을 선택하려고합니다. 다음은 와일드 카드와 일치하는 모든 파일을 컴파일하여 내 RDD에 추가하는 코드 스 니펫입니다. PATH_TO_RAW_DATA = "hdfs:/user/myname/documents/d*" tf = sc.binaryFiles(PATH_TO_RAW_DATA, 100000) 이것은 ~ 5000 개 파

    0

    1답변

    대용량 파일의 경우 어떻게됩니까? 1) Spark은 NameNode에서 데이터를 가져옵니다. Name Spark의 정보 당 데이터 크기가 너무 길기 때문에 Spark가 같은 시간에 중지됩니까? 2) 스파크는 데이터 노드 블록 크기에 따라 데이터를 분할하지만 모든 데이터를 주 메모리에 저장할 수 없습니다. 여기서는 StorageLevel을 사용하지 않습니다.

    0

    2답변

    rdd를 데이터 프레임으로 변환하고 pyspark 1.6.1에서 데이터 프레임을 rdd로 다시 변환하는 방법에 대한 예제가 있습니까? toDF()은 1.6.1에서 사용할 수 없습니까? 예를 들어,이 같은 RDD 있습니다 data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a',

    0

    2답변

    나는 다음과 같은 구조를 가진 RDD를 만드는 방법 : ((ByteArray, Idx), ((srcIdx,srcAdress), (destIdx,destAddress))) 이쪽 비트 코인의 blockchain의 가장자리 (트랜잭션)의 표현입니다. (ByteArray, Idx)은 식별자로 볼 수 있으며 나머지는 가장자리입니다. 내 궁극적 인 목표는 블록 체인의

    0

    1답변

    CSV 파일에서 RDD을로드했습니다. 그러나이 파일에는 잘못된 데이터가 포함되어 있습니다. 그래서,이 RDD의 연락처를 first으로 출력하려고했을 때. java.lang.NumberFormatException의 : 예외에 의한 이다 빈 문자열 나는 하나 개의 레코드는 빈 문자열을 포함 할 때 RDD의 모든 레코드를 제거하기 위해 해결책을 찾기 위해 희망

    0

    2답변

    저는 Scala와 Spark를 처음 사용합니다. 텍스트 파일의 중복 행을 제거하려고합니다. 이건 내 프로그램 -4.5, -4.2,2.7 : 각 행은 세 같은 열 (벡터 값)을 포함 import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.rd

    1

    1답변

    의 구성원이 아닌 : 나는 다음 줄을 실행하면 package trouble.something import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object Stack { val conf = new Spar

    1

    2답변

    키 (인덱스 : Int)별로 그룹화 된 RDD [(Int, Iterable [Coordinates])]가 있습니다. 좌표는 회원들과 클래스 : index,latitude,longitude 으로 : latitude: Double, longitude: Double 내가 인쇄를 만들거나 csv 파일을 생성하고 싶은, 그 형식은 다음 (각 데이터 포인트에 대한

    0

    1답변

    두 가지 rdds, 첫 번째는 (키, 값) 쌍 rdd_1이다 여기서 스파크 두 rdds 참여) 쌍 rdd_2 : (key2, value3), (key3, value4)... 내가 rdd1 및 rdd2에 가입 원하는 rdd_1의 value1 & value2는에서 key2입니다. key1,[value1, value2] -> (key1, value1),(ke