2017-10-18 19 views
1

인 Spark에서 GUID id 열을 생성하는 방법 Dataset의 각 행에 ID를 첨부하려면 UUID.randomUUID.toString을 할 수 있지만이 ID는 GraphX를 사용하고자하므로 Long이어야합니다. 스파크에서 어떻게 할 수 있니? Spark는 monotonically_increasing_id()을 가지고 있지만 DataFrame API에만 해당됩니다. 데이터 세트의 경우는 어떨까요?정수형

+0

는 여전히'monotonically_increasing_id을 사용할 수 있어야합니다()'. 물론, 데이터 프레임을 다시 얻을 수는 있지만 그 점이 중요합니까? 데이터 프레임과 데이터 세트는 일반적으로 서로 바꿔서 사용할 수 있습니다. 문제가되는 경우이 특정 사례에 대한 정보를 좀 더 제공 할 수 있습니까? – Shaido

답변

0

우리는 dataframes에 놓는 방법으로이 작업을 수행 할 수 있습니다

case class Row(id: Long, name: String .....) 

val ds: Dataset[Row] = .... 

val ds2 = ds.withColumn("id", monotonically_increasing_id()).as[Row]