저는 Java에서 Apache Spark를 시작했습니다. 현재 일부 서적 데이터가 포함 된 미니 프로젝트를 진행 중입니다. 나는 각 나라에서 가장 유명한 작가를 찾아야한다. 나는 키가 국가 인 pairRDD을 가지고 값이 [(usa,C. S Lewis), (australia,Jason Shinder), (usa,Bernie S.), (usa,Bernie S
Apache Spark을 사용하여 HBase에서 데이터를 읽으려고합니다. 하나의 특정 열만 스캔하려고합니다. 내가 문자열의 JavaRDD에 JavaPairRDD을 변환 할 경우 다음 SparkConf sparkConf = new SparkConf().setAppName("HBaseRead").setMaster("local[2]");
JavaSparkCon
두 개의 서로 다른 JavaPairRdd를 Key1, value 및 key2 값과 함께 사용합니다. 내가 성취하려고하는 것은 그것들을 병합하는 것이지만 동일한 가치를 지닌 아이템만을 얻는 것입니다. 나는 다음과 같은 시도 : 국가, 가치와 filteredsmallRdd 포함 : 키 : 아이디, 값을 filteredRdd 키를 포함 JavaPairRDD<St
데이터 세트를 JavaRDD로 변환하는 메소드가 있습니다. Dataset<Row> dataFrame;
JavaRDD<String> data = dataFrame.toJavaRDD();
데이터 세트를 javaPairRDD<Long, Vector>으로 변환하는 다른 방법이 있습니까?