2016-09-13 1 views
0

내 그래프를 8 비트로 퀀 타이즈하기 위해이 tutorial을 따라갔습니다. 여기에 정확한 그래프를 공유 할 수는 없지만 단순한 길쌈 신경 네트워크라고 할 수 있습니다.양자화 된 그래프 유추가 원래 그래프를 사용하는 것보다 훨씬 더 많은 시간이 걸리는 이유는 무엇입니까?

원본 및 양자화 된 네트워크에서 benchmark tool을 실행하면 양자화 된 네트워크가 훨씬 느립니다 (100ms vs. 4.5ms). 원래 네트워크에서

가장 느린 노드 : 양자화 된 네트워크

time average [ms] [%] [cdf%] [Op] [Name] 
1.198 26.54% 26.54% MatMul fc10/fc10/MatMul 
0.337 7.47% 34.02% Conv2D conv2/Conv2D 
0.332 7.36% 41.37% Conv2D conv4/Conv2D 
0.323 7.15% 48.53% Conv2D conv3/Conv2D 
0.322 7.14% 55.66% Conv2D conv5/Conv2D 
0.310 6.86% 62.53% Conv2D conv1/Conv2D 
0.118 2.61% 65.13% Conv2D conv2_1/Conv2D 
0.105 2.32% 67.45% MaxPool pool1 

가장 느린 노드 :

time average [ms] [%] [cdf%] [Op] [Name] 
8.289 47.67% 47.67% QuantizedMatMul fc10/fc10/MatMul_eightbit_quantized_bias_add 
5.398 5.33% 53.00% QuantizedConv2D conv5/Conv2D_eightbit_quantized_conv 
5.248 5.18% 58.18% QuantizedConv2D conv4/Conv2D_eightbit_quantized_conv 
4.981 4.92% 63.10% QuantizedConv2D conv2/Conv2D_eightbit_quantized_conv 
4.908 4.85% 67.95% QuantizedConv2D conv3/Conv2D_eightbit_quantized_conv 
3.167 3.13% 71.07% QuantizedConv2D conv5_1/Conv2D_eightbit_quantized_conv 
3.049 3.01% 74.08% QuantizedConv2D conv4_1/Conv2D_eightbit_quantized_conv 
2.973 2.94% 77.02% QuantizedMatMul fc11/MatMul_eightbit_quantized_bias_add 

그 이유는 무엇입니까? gpu 지원없이 소스에서 컴파일 된 tensorflow 버전을 사용하고 있습니다.

+0

GPU에서 실행 중이십니까? 그렇다면 float 그래프가 GPU에 배치되어 속도가 빨라지지만 Quantized 연산에는 현재 GPU 구현이 없으므로 CPU에 배치되어 속도가 느려집니다. 아마도 귀하의 광고 게재 위치를 살펴보고 알려주십시오. – suharshs

답변