먼저 내 목표를 설명하겠습니다. 내가 노력하고있는 목표는 입력 .wav 파일을 제공하고,이를 일종의 음성 인식 API로 보내고 텍스트 파일을 반환하는 것입니다. 내가 염두에두고있는 응용 프로그램은 매우 간단합니다. 문법이나 구두점을 위해 구문 분석 할 필요는 없습니다. 크고 긴 문장을 반환 할 수 있습니다. 괜찮습니다. 내가 말한 각 단어를 텍스트 파일 (.tsv 또는 .csv 형식)로 관찰하여 처리합니다.SAPI 또는 동등하게 사용 가능한 오디오 파일을 텍스트로 오디오
그러나 데이터의 까다로운 부분은 입니다. (검토 한 모든 타사 오디오 필사본 서비스의 95 %가 까다로운 까닭입니다. 사용자에게 이런 종류의 데이터를 제공하지 마십시오.) 내가 필요로하는은 SR이 추측하는 각 단어의 [0.00 - 1.00] 신뢰 점수입니다. 해당 데이터를 .tsv 또는 .csv 형식의 텍스트가 포함 된 텍스트 파일의 새 열에 저장하고 싶습니다.
그게 전부입니다. 그게 내 목표 야. 여기에 관련 게시물에 전문가에서 인용 한 것입니다 :
Convert Audio(Wav file) to Text using SAPI?
SAPI 확실히 당신이 원하는 무엇을 할 수 그것은 내 목표는 가능한 것 같다. in-proc 인식기로 시작하여 은 오디오를 파일 스트림으로 연결하고 받아쓰기 모드를 설정하고 을 사용하면됩니다.
여기가 .WAV 전사 신뢰 점수에 대한 관련 문서입니다 :
https://msdn.microsoft.com/en-us/library/jj127911.aspx 모두가 나에게 문제를 설명하자 지금은 너무 간단 소리 만하게
; 왜 내가 질문을 게시하는지. 문제는 나에게 C++이나 COM에 관해서는 알지 못하기 때문에 나의 목표는 도달 할 수 없다는 것이다. 저는 SAPI가 창일 경험의 일부 였고 헌신적이고 친숙한 사용자 인터페이스를 가지고 있다고 생각했습니다. 그래서 나는이 과정을 더 연구할수록 점차 놀랐다. 그러나 나는 여전히 원칙적으로 이것은 매우 간단한 것이라고 믿습니다. 그래서 나는 낙관적입니다.
저는 파이썬과 약간의 JS에 대한 지식이 있습니다. 나는 파이썬이 다른 언어에 대한 코드 매직을 가지고 있다는 것을 알고있다. 그래서 파이썬이 SAPI와이 인터페이스를 할 수 있다고 확신하지만, C++을 알지 못해서 더 좋을 것 같지 않다.
기술 불일치에도 불구하고 Dragon, Nuance, Chrome 플러그인과 같은 사용자 친화적 인 대안이 필요한 데이터 세분성을 제공하지 않기 때문에 필자는 여전히 SAPI의 일부입니다.
이제 내 질문의 핵심에 도착하자 : 전술 한 바와 같이
이- 누군가가 내 "목표"의 난이도 나에게 자신의 평가를 줄 수 있습니까? 단일 .bat 파일에서 수행 할 수 있습니까? 예제 코드는 크게 감사하겠습니다.
상당히 개방적인 질문입니다. 아무리 크거나 작게 입력해도 조금이라도 기쁘게 생각합니다. 단지 내가 세계에서 가장 숙달 된 프로그래머가 아니라는 것을 명심하십시오. 따라서이 도메인 별 용어를 모두 파악하지는 못 하겠지만 최선을 다하고 있습니다. –