3
은 내가 randomSplit 방법으로 임의 분할 할 수 있습니다 알고Apache Spark에서 무작위로 데이터 집합을 분할하는 방법은 무엇입니까?
val splittedData: Array[Dataset[Row]] =
preparedData.randomSplit(Array(0.5, 0.3, 0.2))
내가 어떤 'nonRandomSplit 방법'으로 연속 부분으로 데이터를 분할 할 수 있습니까?
Apache Spark 2.0.1. 미리 감사드립니다.
UPD : 데이터 순서가 중요하므로 'ID가 작은'데이터로 모델을 학습하고 'ID가 큰'데이터에서 테스트 할 것입니다. 따라서 데이터를 섞지 않고 연속 된 부분으로 나누고 싶습니다.
내가 생각할 수있는
my dataset = (0,1,2,3,4,5,6,7,8,9)
desired splitting = (0.8, 0.2)
splitting = (0,1,2,3,4,5,6,7), (8,9)
유일한 해결책은 수 및 제한을 사용하는 것입니다, 그러나 아마 더 좋은 일이있다.
요점을 자세히 설명해주세요. randomSplit을 사용하여 무작위 분할을 만듭니다. 나는 실제로 그것을 얻지 못한다 – eliasah
매번 동일한 결과를 얻을 수 있도록'randomSplit'에 시드 값을 부여 할 수 있습니다. 그러나 이것이 여러분이 의미하는 바가 확실하지 않습니다. – David
@eliasah 의견을 보내 주셔서 감사합니다. 내 질문을 업데이트했습니다. 나는 실제로 효율적인 데이터 셋 - 파티셔닝 - 주어진 - 비율 방법을 찾고있다. 예제를 보라. – Anton