-1

문서 클러스터링을 위해 디렉토리에서 여러 텍스트 문서를 읽고 싶습니다. 이를 위해 , 나는 같은 데이터를 읽을 수 : 여기문서 클러스터링을 위해 Spark에서 여러 텍스트 파일을 읽는 방법?

SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory", "2g"); 
JavaSparkContext context = new JavaSparkContext(sparkConf); 
SparkSession spark = SparkSession.builder().config(sparkConf).getOrCreate(); 
Dataset<Row> dataset = spark.read().textFile("path to directory"); 

, 나는
JavaPairRDD 데이터 =의 context.wholeTextFiles (경로)를 사용하지 않는다; 데이터 유형을 반환 유형으로 지정해야하기 때문입니다.

답변

0

스칼라에서 당신이 쓸 수 : 자바에서

context.wholeTextFiles("...").toDS() 

당신은 인코더를 사용할 필요가있다. the javadoc for more detail을 참조하십시오.

JavaPairRDD<String, String> rdd = context.wholeTextFiles("hdfs:///tmp/test_read"); 
Encoder<Tuple2<String, String>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.STRING()); 
spark.createDataset(rdd.rdd(), encoder).show();