매우 간단한 작업을하고 싶지만 Python/Spark (1.5)/Dataframe에서 수행하는 방법을 이해할 수 없습니다 (모든 것이 저에게 새로운 것입니다) . 원본 데이터 셋 : code| ISO | country
1 | AFG | Afghanistan state
2 | BOL | Bolivia Plurinational State
새로운 데이터
5 개의 파티션이있는 Kafka 토픽을 만들었습니다. 그리고 다음과 같이 createStream 수신기 API를 사용하고 있습니다. 하지만 어떻게 든 하나의 수신기 만 입력 데이터를 받고 있습니다. 나머지 수신기는 아무 것도 처리하지 않습니다. 좀 도와 줄 수있어? JavaPairDStream<String, String> messages = null;
나는 Spark 1.5를 사용한다. 이름에 점들이 포함 된 열 (예 : param.x.y)에 어려움을 겪고 있습니다. 나는 처음에 그것들을 선택하는 문제를 가지고 있었지만`character (`param.x.y`)를 사용해야한다는 것을 알았다. 이제 열의 이름을 바꾸려고 할 때 문제가 있습니다. 나는 유사한 접근 방식을 사용하고 있지만, 작동하지 않는 것
를 사용하여 교육 NaiveBayes 모델에 대한 CrossValidator를 사용하여 정밀/리콜을 얻는 방법 : 당신이 볼 수 있듯이 val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words")
val hashingTF = new HashingTF().setNumFeatures(1