2017-12-21 17 views
0

나는 스파크 스트리밍에 처음이다. UpdateStateByKey 작업의 중요성을 이해하려고합니까? 그것의 용도는 무엇입니까? 임의의 주를 저장할 필요성은 무엇입니까? 어떻게 작동합니까?updatestatebykey - Pyspark - 스파크 스트리밍

답변

1

updateStateByKey 메서드를 사용하면 스트림에서 오는 데이터를 기반으로 상태 정보를 만들 수 있습니다.

예를 들어, 형식의 주어진 sensor_id에 대한 현재 상태 (풍속, 온도 등)를 보내는 기상 센서가있는 경우 updateStateByKey를 사용하여 센서와 같은 현재 기상 상태를 나타내는 스트림을 작성할 수 있습니다. [(sensor_1, current_weather_data), (sensor_2, current_weather_data)].

그러면 다른 데이터와 함께 스트림에 참여할 수 있으며 센서가 마지막 창에서 정보를 전송하지 않더라도 상태는 마지막 값을 계속 포함합니다. 나는 this notebook에서이 방법을 사용했다.