0
내 그래프를 8 비트로 퀀 타이즈하기 위해이 tutorial을 따라갔습니다. 여기에 정확한 그래프를 공유 할 수는 없지만 단순한 길쌈 신경 네트워크라고 할 수 있습니다.양자화 된 그래프 유추가 원래 그래프를 사용하는 것보다 훨씬 더 많은 시간이 걸리는 이유는 무엇입니까?
원본 및 양자화 된 네트워크에서 benchmark tool을 실행하면 양자화 된 네트워크가 훨씬 느립니다 (100ms vs. 4.5ms). 원래 네트워크에서
가장 느린 노드 : 양자화 된 네트워크
time average [ms] [%] [cdf%] [Op] [Name]
1.198 26.54% 26.54% MatMul fc10/fc10/MatMul
0.337 7.47% 34.02% Conv2D conv2/Conv2D
0.332 7.36% 41.37% Conv2D conv4/Conv2D
0.323 7.15% 48.53% Conv2D conv3/Conv2D
0.322 7.14% 55.66% Conv2D conv5/Conv2D
0.310 6.86% 62.53% Conv2D conv1/Conv2D
0.118 2.61% 65.13% Conv2D conv2_1/Conv2D
0.105 2.32% 67.45% MaxPool pool1
가장 느린 노드 :
time average [ms] [%] [cdf%] [Op] [Name]
8.289 47.67% 47.67% QuantizedMatMul fc10/fc10/MatMul_eightbit_quantized_bias_add
5.398 5.33% 53.00% QuantizedConv2D conv5/Conv2D_eightbit_quantized_conv
5.248 5.18% 58.18% QuantizedConv2D conv4/Conv2D_eightbit_quantized_conv
4.981 4.92% 63.10% QuantizedConv2D conv2/Conv2D_eightbit_quantized_conv
4.908 4.85% 67.95% QuantizedConv2D conv3/Conv2D_eightbit_quantized_conv
3.167 3.13% 71.07% QuantizedConv2D conv5_1/Conv2D_eightbit_quantized_conv
3.049 3.01% 74.08% QuantizedConv2D conv4_1/Conv2D_eightbit_quantized_conv
2.973 2.94% 77.02% QuantizedMatMul fc11/MatMul_eightbit_quantized_bias_add
그 이유는 무엇입니까? gpu 지원없이 소스에서 컴파일 된 tensorflow 버전을 사용하고 있습니다.
GPU에서 실행 중이십니까? 그렇다면 float 그래프가 GPU에 배치되어 속도가 빨라지지만 Quantized 연산에는 현재 GPU 구현이 없으므로 CPU에 배치되어 속도가 느려집니다. 아마도 귀하의 광고 게재 위치를 살펴보고 알려주십시오. – suharshs