apache-spark

0열

1답변

키를 일치시키고 데이터 프레임을 사용하지 않고 pyspark에있는 2 개의 RDD를 연결하십시오.

2 개의 RDD가 있습니다. RDD 1: [['1', 'user1', 'Name1'], ['2', 'user4', 'Name2']] RDD 2: [['5', '1a', '3', '99', 'g1'], ['11', '2b', '1', '99', 'g2'], ['12', '3c', '2', '99', 'g3']] 나는 등 RDD2의 세번째 필드

0열

2답변

Apache Spark : 성공률 쿼리

저는 SQL과 Apache Spark을 배우기 시작했습니다. Spark에서 SQL 테이블을 가져 왔습니다. 이제 '예'일 필요가있는 필드를 기준으로 성공률을 찾아야합니다. 그래서 나는 '예'와 같은 특정 필드가 행 수로 나눈 행의 총 수를 찾을 필요가 나는 개별적으로 결과를 찾을 수 있었다 그러나이 두 개의 쿼리를 결합하는 방법을 알고하지 않았다 . sql

1열

1답변

PySpark : 처리중인 100000 열 데이터 세트

Cloudera Spark 2를 사용하고 있습니다. 클러스터에 Kerberos가 구현되어 있습니다. 400000x100000의 CSV 데이터 세트가 있습니다. 500GB가 있습니다. 내가 다음과 같은 짓을 : df = spark.read.csv('largefile.csv',header=Ture,maxCoulmns=100000) print(df.count()

0열

1답변

REST API가 Spark와 상호 작용

Spark 컨텍스트를 REST API와 연결하려고합니다. 그래서 내 흐름이, 내 UI-nodejs에서 필요한 응답을 포함하는 스파크 컨텍스트 (Spark 작업 위의 하이브 테이블 위에 작동합니다)와 상호 작용해야하는 REST API로 요청을 보내고 다시 UI로 보내 디스플레이합니다. 이것을 달성 할 수있는 방법이 있습니까? UI < -> REST API <

0열

3답변

스파크 데이터 프레임의 문자열 열에서 단어를 추출하십시오.

텍스트가있는 스파크 데이터 프레임에 열이 있습니다. 특수 문자 '@'으로 시작하는 모든 단어를 추출하고 해당 텍스트 열의 각 행에서 regexp_extract을 사용하고 있습니다. 텍스트에 '@'으로 시작하는 여러 단어가 포함되어 있으면 첫 번째 단어를 반환합니다. 나는 스파크에 내 패턴과 일치하는 여러 단어를 추출 찾고 있습니다. data_frame.wi

1열

1답변

Ax = b Solver on coordinate matrix Apache Spark

Apache spark를 사용하여 Ax = b 문제를 어떻게 해결할 수 있습니까? 내 입력 좌표 행렬이다 import numpy as np import scipy from scipy import sparse row = np.array([0, 3, 1, 0]) col = np.array([0, 3, 1, 2]) data = np.array([4, 5

0열

1답변

PySpark의 파티션 내에서 데이터 프레임에 합류합니다.

두 개의 데이터 프레임에 수백 (수천만에서 수백만) 개의 행이 있습니다. 나는 그들 사이에 조인을하고 싶습니다. 현재 사용하고있는 BI 시스템에서 특정 키를 먼저 분할 한 다음 해당 키를 조인하여이 작업을 빠르게 수행 할 수 있습니다. 이 패턴은 내가 스파크에서 따라야 할 패턴입니까, 그렇지 않습니까? 언뜻보기에는 미리 파티션 된 것이 아니기 때문에 많은

3열

2답변

Spark : Dataframe Serialization

스파크 직렬화와 관련하여 2 가지 질문이 있습니다. 단순히 인터넷 검색으로 답변을 찾을 수 없습니다. 현재 사용중인 시리얼 라이저의 이름을 어떻게 인쇄 할 수 있습니까? 나는 spark.serializer가 Java인지 Kryo인지를 알고 싶다. 나는 Kryo 직렬화를 사용하기로되어있는 다음 코드를 가지고있다; 데이터 프레임에 사용 된 메모리 크기는 21

0열

1답변

Spark read.parquet에 너무 많은 시간이 걸립니다.

안녕하세요. 왜이 코드가 너무 많은 시간이 걸리는지 이해가 가지 않습니다. val newDataDF = sqlContext.read.parquet("hdfs://192.168.111.70/u01/dw/prod/stage/br/ventas/201711*/*") 드라이버 프로그램으로 전송되는 바이트가없는 것 같습니다. 맞습니까? read.parquet은 어

1열

1답변

자바 스파크 : com.mongodb.spark.config.writeconfig 문제

자바 스파크 커넥터를 통해 MongoDB에 연결하려고하는데 jar 파일을 제출할 때 "com.mongodb.spark.config.writeconfig"오류가 발생합니다. 스파크 껍질에 항아리를 달아 라. 여기에 오류 스크린 샷 : 이 문제를 해결할 수 있도록 도와 주시겠습니까? 나는 이것을 시도했지만 성공하지는 못했다. $/빈/sparkR --conf "