Google Dataproc/Spark에서 Python2.7을 사용하는 권장 엔진을 구현했으며 이후 App Engine API에서 사용하기 위해 출력을 Datastore의 레코드로 저장해야합니다. 그러나이를 직접 수행하는 방법이없는 것 같습니다.Dataproc에서 Datastore로 데이터 저장
Dataproc에 대한 Python Datastore 커넥터는 없습니다. Python Dataflow SDK는 Datastore에 대한 쓰기 기능을 지원하지 않습니다 (Java 코드 기능은 지원하지만). MapReduce에는 Datastore 용 출력 기록 장치가 없습니다.
많은 옵션을 남기지 않는 것으로 보입니다. 지금은 레코드를 Google Cloud Storage에 쓰고 App Engine에서 별도의 작업을 실행하여 데이터를 수집하고 Datastore에 저장해야합니다. 이상적이지는 않습니다. 두 프로세스를 조정하는 데는 자체적 인 어려움이 있습니다.
Dataproc에서 Datastore로 데이터를 가져 오는 더 좋은 방법이 있습니까?
페이지가 잘못 표시되는 것 같습니다. 주어진 옵션 중에서 옵션 1은 불가능합니다. Python Dataflow SDK는 Datastore에 대한 쓰기를 지원하지 않으며, MapReduce가 Dataproc에없는 많은 서비스를 기대하기 때문에 옵션 2는 어렵지 않습니다. MapReduce가 memcache 서비스를 찾고있을 때 포기했던 신원 서비스). 옵션 3이 가능하지만 AppEngine에서 다른 작업을 동기화하는 경우가 있습니다. 이는 내 용도에 맞지 않습니다. 옵션 4는 Datastore 로의 입력이 아니라 Datastore에서의 입력과 관련됩니다. – nanojack