Apache Spark에서 무작위로 데이터 집합을 분할하는 방법은 무엇입니까?

은 내가 randomSplit 방법으로 임의 분할 할 수 있습니다 알고Apache Spark에서 무작위로 데이터 집합을 분할하는 방법은 무엇입니까?

val splittedData: Array[Dataset[Row]] = 
     preparedData.randomSplit(Array(0.5, 0.3, 0.2))

내가 어떤 'nonRandomSplit 방법'으로 연속 부분으로 데이터를 분할 할 수 있습니까?

Apache Spark 2.0.1. 미리 감사드립니다.

UPD : 데이터 순서가 중요하므로 'ID가 작은'데이터로 모델을 학습하고 'ID가 큰'데이터에서 테스트 할 것입니다. 따라서 데이터를 섞지 않고 연속 된 부분으로 나누고 싶습니다.

내가 생각할 수있는

my dataset = (0,1,2,3,4,5,6,7,8,9) 
desired splitting = (0.8, 0.2) 
splitting = (0,1,2,3,4,5,6,7), (8,9)

유일한 해결책은 수 및 제한을 사용하는 것입니다, 그러나 아마 더 좋은 일이있다.

출처

2016-12-02 Anton

요점을 자세히 설명해주세요. randomSplit을 사용하여 무작위 분할을 만듭니다. 나는 실제로 그것을 얻지 못한다 – eliasah

매번 동일한 결과를 얻을 수 있도록'randomSplit'에 시드 값을 부여 할 수 있습니다. 그러나 이것이 여러분이 의미하는 바가 확실하지 않습니다. – David

@eliasah 의견을 보내 주셔서 감사합니다. 내 질문을 업데이트했습니다. 나는 실제로 효율적인 데이터 셋 - 파티셔닝 - 주어진 - 비율 방법을 찾고있다. 예제를 보라. – Anton

구현 된 솔루션 : 데이터 세트 -> 데이터 -> 데이터 세트.

나는 그것이 가장 효과적인 방법인지 확실하지 않아 더 나은 해결책을 받아 들일 수있게되어 기쁩니다.

val count = allData.count() 
val trainRatio = 0.6 
val trainSize = math.round(count * trainRatio).toInt 
val dataSchema = allData.schema 

// Zipping with indices and skipping rows with indices > trainSize. 
// Could have possibly used .limit(n) here 
val trainingRdd = 
    allData 
    .rdd 
    .zipWithIndex() 
    .filter { case (_, index) => index < trainSize } 
    .map { case (row, _) => row } 

// Can't use .limit() :(
val testRdd = 
allData 
    .rdd 
    .zipWithIndex() 
    .filter { case (_, index) => index >= trainSize } 
    .map { case (row, _) => row } 

val training = MySession.createDataFrame(trainingRdd, dataSchema) 
val test = MySession.createDataFrame(testRdd, dataSchema)

출처

2016-12-02 17:25:13 Anton

Apache Spark에서 무작위로 데이터 집합을 분할하는 방법은 무엇입니까?

답변

관련 문제