2017-10-02 13 views
1

과 분산 훈련을 실행 : https://www.tensorflow.org/deploy/distributedTensorflow 내가 분산 훈련에 tensorflow 가이드 라인에 신경 네트워크 쓴 토크

클러스터가 내가 작업 스케줄링 및 배포에 대한 토크를 사용에 대한 교육을 실행하려는 경우를, 이것이 텐서 흐름 (tensorflow)과 어떻게 맞습니까? 그리고 클러스터를 통해 교육을 배포하는 방법은 무엇입니까?

토크에서 한 노드에 대해 트레이닝을 설정하고 텐서 플로우가 거기에서 분배하도록하거나 토크의 기능과 충돌합니다. 텐서 플로우가 분포를 처리 할 수 ​​있다면 토크는 전혀 필요하지 않습니까? 둘 사이의 충돌을 피하려면 어떻게합니까?

미리 감사드립니다.

답변

0

토크 및 분산 텐서 흐름은 서로 직접 관련이없는 여러 작업을 담당합니다. 클러스터의 리소스를 여러 작업에 배포하기위한 토오크가 있습니다. 한 작업 내에서 요청 된 자원 만 사용할 수 있습니다. 분산 텐서 흐름은 사용 가능한 리소스 사이에서 텐서 흐름 작업을 병렬 처리합니다 (하나의 작업 내에서).

일반적으로 텐서 플로 작업에 필요한 모든 리소스를 얻고 분산 된 텐서 흐름을 사용하여 토오크로 제공된 리소스에 작업을 분산시킵니다.

tf.train.ClusterSpec이 토크로 사용 가능한 리소스로 올바르게 초기화되면 충돌이 발생하지 않습니다.

+0

도움 BlueSun에게 감사드립니다. 귀하의 답변이 많은 도움이되었습니다. 그러나 나는 관련 문제에 부딪혔다. headnode에서 하나의 작업으로 tensorflow 교육 세션을 실행하면 다음과 같은 오류가 발생합니다. "ImportError : Tenorflow라는 모듈이 없습니다"그러나 tensorflow가 클러스터의 모든 노드에 설치됩니다. 나는 토크 욥기 파일을 사용하여 모든 노드에서 tensorflow 쉘을 열어 보았지만, pbs 파일에서 "소스 활성화 텐서 흐름"을 사용하여도 도움이되지 않았습니다. 제가 조사해야 할 몇 가지 가능한 해결책은 무엇입니까? –

+0

@DevonJarvis ImportError에는 여러 가지 이유가있을 수 있습니다. 다음 질문에 대한 답변을 읽어보십시오. https://stackoverflow.com/questions/14295680/cannot-import-a-python-module-that-is-definitely-installed-mechanize – BlueSun