나는 사용자 로그 파일에 대한 탐색 데이터 분석을 위해 Spark을 사용하고 있습니다. 내가하고있는 분석 중 하나는 호스트 당 일일 평균 요청입니다. 따라서 평균을 계산하려면 DataFrame의 총 요청 열을 DataFrame의 고유 한 요청 열로 나누어야합니다.다른 데이터 프레임의 두 열을 나누기
total_req_per_day_df = logs_df.select('host',dayofmonth('time').alias('day')).groupby('day').count()
avg_daily_req_per_host_df = total_req_per_day_df.select("day",(total_req_per_day_df["count"]/daily_hosts_df["count"]).alias("count"))
이것은 평균을 결정하기 위해 PySpark를 사용하여 작성한 것입니다. daily_hosts_df 및 logs_df이 메모리에 캐시 : 그리고 여기에 내가
AnalysisException: u'resolved attribute(s) count#1993L missing from day#3628,count#3629L in operator !Project [day#3628,(cast(count#3629L as double)/cast(count#1993L as double)) AS count#3630];
주를 얻을 오류의 로그입니다. 두 데이터 프레임의 카운트 열을 어떻게 나누나요?
누가 다운 투표 한 사람에게 : 만약 당신이 상관 없으면 이유를 적어주세요. 왜냐하면 나는 그 질문의 중복을 보지 못했기 때문이다. 그리고 비록 그것이 어리석은 실수이거나 적어도 나를 인도 할지라도, 나는 무엇을 놓치고 있습니까? – StackPointer