오디오 파일 음성 인식 - 초 단어의 위치 나 파이썬 음성 인식 라이브러리 <a href="https://pypi.python.org/pypi/SpeechRecognition/" rel="nofollow noreferrer">https://pypi.python.org/pypi/SpeechRecognition/</a></p> <p>을 실험했습니다

는 BBC 운송 예보의 다운로드 버전을 읽을 수 있습니다. 라이브 라디오에서 iplayer로 파일을 잘라내는 것은 분명히 자동화되어 있으며 정확하지는 않습니다. 따라서 대개 예측 자체가 시작되기 전에 오디오가 있거나 예고편 또는 뉴스가 끝납니다. 정확할 필요는 없지만 음성 인식을 통해 "그리고 지금은 배송 예측"(또는 '배송'이 실제로 가능할 것입니다) 문구를 인식하고 거기에서 파일을 잘라내고 싶습니다.오디오 파일 음성 인식 - 초 단어의 위치 나 파이썬 음성 인식 라이브러리 <a href="https://pypi.python.org/pypi/SpeechRecognition/" rel="nofollow noreferrer">https://pypi.python.org/pypi/SpeechRecognition/</a></p> <p>을 실험했습니다

지금까지의 내 코드 (예 : adpated form)는 예측의 오디오 파일과 필사본을 전달하고 분당 200 단어를 기반으로하는 공식을 사용하여 출하 단어가 어디서 왔는지 예측하지만 매우 정확하지는 않습니다.

실제 '프레임'을 얻는 방법이나 그 단어에 대해 pocketsphinx 자체가 감지 된 두 번째 시작 방법이 있습니까? 문서에서 아무것도 찾을 수 없습니다. 누구든지 어떤 아이디어?

import speech_recognition as sr 

AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "test_short2.wav") 

# use the audio file as the audio source 
r = sr.Recognizer() 
with sr.AudioFile(AUDIO_FILE) as source: 
    audio = r.record(source) # read the entire audio file 

# recognize speech using Sphinx 
try: 
    print "Sphinx thinks you said " 
    returnedSpeech = str(r.recognize_sphinx(audio)) 

    wordsList = returnedSpeech.split() 
    print returnedSpeech 
    print "predicted loacation of start ", float(wordsList.index("shipping")) * 0.3 


except sr.UnknownValueError: 
    print("Sphinx could not understand audio") 
except sr.RequestError as e: 
    print("Sphinx error; {0}".format(e))

출처

2017-11-05 user4190374

사용 이진 검색 또는 유사한 원본 또는 이와 유사한 예를 절반위한 새로운 웨이브 파일을 생성 후 부분이 들어있는 알 단어'배송 '... 등 –

이러한 경우에는 pocketsphinx API를 직접 사용해야합니다. pocketsphinx documentation on keyword spotting을 읽는 것이 좋습니다.

example에서 입증 된 바와 같이 당신은 keyphrase를위한 자리 수

config = Decoder.default_config() 
config.set_string('-hmm', os.path.join(modeldir, 'en-us/en-us')) 
config.set_string('-dict', os.path.join(modeldir, 'en-us/cmudict-en-us.dict')) 
config.set_string('-keyphrase', 'shipping forecast') 
config.set_float('-kws_threshold', 1e-30) 

stream = open(os.path.join(datadir, "test_short2.wav"), "rb") 

decoder = Decoder(config) 
decoder.start_utt() 
while True: 
    buf = stream.read(1024) 
    if buf: 
     decoder.process_raw(buf, False, False) 
    else: 
     break 
    if decoder.hyp() != None: 
     print ([(seg.word, seg.prob, seg.start_frame, seg.end_frame) for seg in decoder.seg()]) 
     print ("Detected keyphrase, restarting search") 
     decoder.end_utt() 
     decoder.start_utt()

출처

2017-11-05 14:32:13

답장을 보내 주셔서 감사합니다. 나는 오류를 "디코더 = 디코더 (구성) 파일"C를 얻을 : \ Python27 \ lib 디렉토리 \ 사이트 - 패키지 \ pocketsphinx \ pocketsphinx.py ", 라인 277,이 _pocketsphinx.new_Decoder (* 인수를) = __init__ 에 RuntimeError : new_Decoder가 -1을 반환했습니다. " 가져올 다른 패키지가 있습니까? ' '설정 = Decoder.default_config()': "/ Python27/lib 디렉토리/사이트 패키지/pocketsphinx/모델 C" – user4190374

다시 니콜라이 내가 'modeldir =이 제대로 –

감사를 모델 경로를 지정해야
'config.set_string ('- dmm', os.path.join (modeldir, 'en-us/en-us'))' ' , 'en-us/cmudict-en-us.dict'))' 'config.set_string ('- keyphrase', 'shipping forecast')' 'config.set_float ('- kws_threshold', 1e-30)' 아직 행운이 없습니다 – user4190374

오디오 파일 음성 인식 - 초 단어의 위치 나 파이썬 음성 인식 라이브러리 <a href="https://pypi.python.org/pypi/SpeechRecognition/" rel="nofollow noreferrer">https://pypi.python.org/pypi/SpeechRecognition/</a></p> <p>을 실험했습니다

답변

관련 문제