나는이 function의 문서를 읽는데 많은 시간을 보냈지 만, 나는 그것을 사용하는 방법에 대한 명확한 아이디어가 아직 없다. 입력의 3D 텐서 모양 [seq_length * batch_size * vocab_size]을 입력하고 top_paths을 설정했습니다. 그리고 decoded[0].values (top_paths=1으로, len(decoded)이
디코딩 부분에 대한 자동 음성 인식에서 빔 - 검색 알고리즘에 사용 된 로직을 이해하려고 노력해 왔습니다. 내가 따라하려고 시도한 논문은 First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs, Lexicon-Free Conversational
상태 벡터가 주어지면 우리는 각 출력을 연속적으로 생성함으로써 욕심 많은 방식으로 시퀀스를 반복적으로 디코딩 할 수 있습니다. 여기서 각 예측은 이전 출력을 조건으로합니다. 필자는 최근 빔 크기가 1 (k = 1) 인 디코딩 중에 빔 검색을 사용하여 기술 한 논문을 읽었습니다. 우리가 각 단계에서 최고의 출력만을 유지한다면, 욕심 많은 디코딩과 똑같은 것이