SQL Server 테이블의 데이터를 로컬 파일 시스템의 CSV로로드하려면 spark를 사용해야합니다. 아래는 내가 사용한 코드입니다. val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DB
나는 스파크 실 클러스터 환경을 설정하고 불꽃 쉘 스파크-SQL을 시도해보십시오 언급 spark-shell --master yarn --deploy-mode client --conf spark.yarn.archive=hdfs://hadoop_273_namenode_ip:namenode_port/spark-archive.zip
한 가지 인 불꽃에서 Win
나는 스파크의 카산드라에서로드 된 데이터 세트를 가지고 있습니다. 이 데이터 세트를로드 한 후에는 cassandra에서 일부 항목을 제거 하겠지만 다음 계산을 위해 먼저 내 데이터 집합을 원합니다. 나는 그것을 해결하기 위해 persist(DISK_ONLY)을 사용했지만, 최선의 노력으로 보인다. spark에서 강제로 다시 계산하지 않도록 할 수 있습니까?
4 개의 열을 포함하는 데이터 프레임이 있습니다. Dataframe 샘플 행에 데이터의 2 개 종류가있다 id1 id2 id3 id4
---------------
a1 a2 a3 a4
b1 b2 b3 b4
b1 b2 b3 b4
c1 c2 c3 c4
b2
c1
a3
a4
c1
d4
중 모든 열 데이
두 개의 임시 테이블 중 하나를 UNION으로 만들고 열로 정렬하려고하지만 순서대로 정렬 할 수없는 불만이 발생합니다. 이게 버그인가 아니면 뭔가 빠졌는가? 나는 UNION을하고 있지 않다 경우에 따라서 SELECT 절에없는 열을 기준으로 주문 +-------------+---------------+
| id| name|
+------------
나는 32 개의 노드, 16 코어 및 30GB 메모리의 클러스터에서 실행되는 databricks의 Spark 앱을 보유하고 있습니다. 일부 세션 구성을 변경하고 싶었지만 변경 사항이 무엇이든 관계없이 실행 프로그램 페이지에서 spi ui와 같이 32 개 이상의 실행 프로그램을 만들 수는 없습니까? 내가 읽으면서 spark.executor.instances
spark에서 쿼리를 실행하고 싶습니다. 내 .SQL 파일 에 모두가 현재 내가 실행하고있는 방법은 다음과 같습니다 spark-sql --master yarn /home/myuser/query.sql
그러나 즉시 쿼리가 스파크-SQL> 내에서 제공되는 실행을 완료로 ... . 쉘 프롬프트 그리고 나서 작업 상태가 성공적으로 완료로 바뀌지 않습니다. 실행
(PySpark를 사용하여) Spark 데이터 프레임에서 그룹 quantile을 계산하고 싶습니다. 근사 또는 정확한 결과가 좋을 것입니다. groupBy/agg이라는 컨텍스트 내에서 사용할 수있는 솔루션을 선호하므로 다른 PySpark 집계 함수와 섞을 수 있습니다. 어떤 이유로 든 이것이 가능하지 않다면, 다른 접근법도 괜찮을 것입니다. This que
spark 구조화 된 스트리밍 API를 사용하여 s3에서 avro 파일을 읽고 싶습니다. 당신은 카프카로 그것을하는 것에 대한 정보를 찾을 수 있지만 s3에 대해서는 아무것도 찾을 수 없습니다. 여기서 문제는 설정해야 할 형식을 모른다는 것입니다. 다음은 간단한 코드입니다. Dataset<Row> baseDataSet = sparkSession