4 개의 열이있는 pyspark 데이터 프레임이 있습니다.pyspark 그룹 by sum
ID/수/값/X
내가 열 ID, 번호를 GROUPBY 다음 ID와 수에 따라 값의 합으로 새 열을 추가 할. 나는 아무것도하지 않고 colunms x을 유지하고 싶다. ID/수/값/X/sum_of_value)
사람이 도움을 줄 수 있습니까 : 나는 5 열 데이터 프레임을 원하는 끝에
df= df.select("id","number","value","x")
.groupBy('id', 'number').withColumn("sum_of_value",df.value.sum())
?
(코드 포맷 친절하고, 다음에) 몇 가지 예제 데이터를 제공하십시오 – desertnaut