apache-spark-sql

0열

2답변

SchemaRDD (SQLContext.parquetFile을 사용하여로드 됨), 메타 데이터/스키마/열 목록을 어떻게 추출합니까?

2열

1답변

Spark 프로그래밍 가이드에 제공된 예제를 실행하려고합니다. https://spark.apache.org/docs/1.1.0/sql-programming-guide.html 하지만 컴파일 오류가 있습니다. (나는 스칼라 안돼서) 아래는 내 코드입니다 : import org.apache.spark.{SparkContext,SparkConf} import

1열

1답변

RDD 표준화

가정하자 나는 복식의 RDD을 다음과 같이 나는 그것을 "표준화"할 :에서 의미하는 열을 빼기 각 COL 각 COL 에 대한 평균과 SD를 계산 각 엔트리를 열 sd로 결과를 나눕니다. RDD를 어떤 단계에서든 이중 배열로 변환하지 않고도 효율적이고 쉽게 수행 할 수 있습니까? 감사와 관련,

1열

1답변

PostgreSQL 데이터베이스를 SchemaRDD에로드하십시오.

PostgreSQL에 1 백만 행과 100+ 열이있는 데이터 소스가 있습니다.이 데이터 소스를 SchemaRDD으로 변환하려면 Spark SQL을 사용하고 싶습니다. 나는 100 + 열이 있기 때문 지루 case class Row(Var1: Int, Var2: String, ...) : 두 가지 방법은 내가 정의 할 필요가 의미하는 하나가 반사 통해,

5열

2답변

스파크 RDD 유니온에 대해 매우 느림

spark SQL 쿼리에 사용되는 2 개의 스파크 RDD, dataRDD 및 newPairDataRDD가 있습니다. 내 응용 프로그램 초기화시 dataRDD가 초기화됩니다. 하나의 지정된 hbase 엔티티의 모든 데이터가 dataRDD에 저장됩니다. 클라이언트의 sql 쿼리가 오면 내 APP는 newPairDataRDD에 모든 새 업데이트와 삽입을 가져옵니

1열

1답변

SparkSQL - 컬렉션 (설정)에 CassandraSqlContext 쿼리

내가 같은 테이블이 있다고 가정하자 : CREATE TABLE USER ( userid ascii, books set<text> PRIMARY KEY (userid) ); 및 지수 : create index on USER (books); 나는 SQL 컨텍스트를 사용하여 책을 조회 할. 내가 뭐하는 거지 것은 : Cassan

8열

2답변

표를 등록 할 때 SparkSQL MissingRequirementError가 발생했습니다.

저는 Scala와 Apache Spark의 초보자이며 Spark SQL을 사용하려고합니다. repo를 복제 한 후 나는 bin/spark-shell를 입력하고 다음을 실행하여 스파크 쉘을 시작 : val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.createSchemaRD

1열

1답변

스파크 SQL 성능이 매우 나쁨

SPARK SQL을 사용하고 싶습니다. 성능이 매우 나쁜 것으로 나타났습니다. 내 최초의 솔루션에서 : 각 SQL 쿼리가 나올 때 는 로드합니다 dataRDD에 HBase를 엔티티의 데이터, 후는 SqlContext이 dataRDD을 등록합니다. 은 (는) spark SQL 쿼리를 마지막으로 실행합니다. 매번 데이터를로드해야하기 때문에 솔루션이 매우 나쁩니

5열

1답변

hive/sql 및 spark로 json 키 - 값 읽기

이 json 파일을 하이브 테이블로 읽으려고합니다. 최상위 키 즉 1,2 .. 여기서 일관되지 않습니다. { "1":"{\"time\":1421169633384,\"reading1\":130.875969,\"reading2\":227.138275}", "2":"{\"time\":1421169646476,\"reading1\":131.240

32열

2답변

아파치 스파크에서 서로 다른 RDD의 데이터 세트를 스칼라로 연결하기

두 개의 다른 RDD의 데이터 세트를 연결하는 방법이 있습니까? 요구 사항 - 같은 열 이름을 가진 스칼라를 사용하여 두 개의 중간 RDD를 만들고 두 RDD의 결과를 결합하여 UI에 액세스하기위한 결과를 캐시해야합니다. 어떻게 데이터 세트를 여기에 결합합니까? RDDs 유형 spark.sql.SchemaRDD