이론적 인 질문은 여기에 있습니다. 단일 컴퓨터의 메모리에 맞지 않는 데이터 세트를 다룰 때 spark + EMR을 사용하는 것이 좋습니다.대규모 데이터 세트에 대한 심도있는 학습
그러나 스파크의 ml lib 알고리즘 대신 tensorflow를 사용하여 이러한 대규모 데이터 세트에 대한 심층적 인 학습을 수행하고 싶습니다.
내 연구 결과에 따르면,이를 달성하기 위해 pyspark, elephas 및 EMR을 잠재적으로 사용할 수 있음을 알았습니다. 또는 BigDL과 sparkdl이 있습니다.
내가 잘못 생각하고 있습니까? 메모리에 맞지 않는 데이터에 대한 깊은 학습을위한 모범 사례는 무엇입니까? 대신 온라인 학습이나 배치 교육을 사용해야합니까? This post "가장 고성능의 심층 학습 구현은 단일 노드 만"이라고합니다.
올바른 방향으로 나를 가리키게 도와 주시면 감사하겠습니다.
달성하려는 목표에 대해 [Amazon MXNet] (https://aws.amazon.com/mxnet/)을 사용하고 있습니까? –