2017-10-11 14 views
2

언어학 자나 인류 학자가 이전에 연구되지 않은 언어를 연구하는 데 도움이되는 소프트웨어 플랫폼을 설계하려고합니다. 통계에 따르면 각자의 연사 그룹 외부의 사람이 공부하지 않은 약 1,000 개 언어가 존재 함을 알 수 있습니다.IPA (International Phonetic Alphabet) Transcription with Tensorflow

저의 목표는 언어 학자들이 언어를보다 효율적으로 연구하고 문서화 할 수있는 플랫폼을 만들기 위해 TensorFlow를 활용하고 이미 서면 시스템이없는 시스템을 작성하는 데 도움이되는 것입니다. 이러한 작업을 수행하는 현재의 방법 중 하나는 언어로 대화하는 원어민을 녹음하고, 녹음 내용을 듣고 IPA로 녹음하려고합니다. 3) 음성학에서 소리를 분석합니다. 그리고 언어의 음운론 (phonotactics)을 사용하여 연사를위한 서면 시스템을 완성합니다.

제안 된 플랫폼을 사용하면 연구 시간을 최소 1 년에서 최대 6 개월로 단축 할 수 있습니다. 시작하기 전에 질문이 있습니다 ...

라이브 오디오를 IPA로 녹음하기 위해 TensorFlow를 교육하는 데 필요한 것은 무엇입니까? 이미 완료 되었습니까? 그렇다면이 프로젝트에서 이전 솔루션을 어떻게 활용할 수 있습니까? TensorFlow에서도 이런 프로젝트가 가능합니까? 그렇지 않다면 대신 무엇을 권하고 싶습니까?

이 질문에 대한 답변을드립니다. 나는이 프로젝트의 연구 과정을 막 시작한 이래로 기계 학습의 영역에서 많은 경험을하지 못했다. 어떤 도움을 주셔서 감사합니다!

+0

언어학 자에게 이것에 대해 이야기 해 보셨나요? 음소 인식은 단어를 인식하는 것보다 훨씬 어려울 수 있습니다. https://cmusphinx.github.io/wiki/phonemerecognition/ – Aaron

+0

기술적으로, 여기서는 * 폰 *이 아니고 음소는 아니지만 확실한 것은 아닌지 확실하지 않습니다. – lenz

답변

1

나는이 질문에 답하기 위해 첫 발을 내딛을 것입니다. 질문은 꽤 일반적인 것이기 때문에 나의 대답은 꽤 일반적이어야합니다.

  1. 무엇이 필요할까요? 적어도 미리 복사 된 데이터의 큰 데이터 집합을 가져야합니다. 이상적으로 음성 언어의 많은 양의 음성 오디오가 음성 알파벳의 문자에 매핑되므로 시스템은 전체 문자가 아닌 개별 문자의 소리를 학습 할 수 있습니다. 그러한 데이터 집합이 존재하지 않으면 덜 세분화 된 데이터 집합을 사용하여 단일 단어를 필사본에 매핑 할 수 있습니다. 그렇다면 코드로 구현 된 실제 신경망 아키텍처 인 모델이 필요합니다. 마지막으로 컴퓨팅 리소스가 필요합니다. 이것은 자연스럽게 훈련 할 수있는 것이 아니며, Google Cloud ML과 같은 클라우드 기반 시스템 학습 프레임 워크에서 시간을 벌거나 집에서 훈련하기 위해 상당히 비싼 기계를 구축해야합니다.

  2. 이 작업이 완료 되었습니까? 나는 모른다. 나는 그렇게 생각하지 않는다. 연설을 녹음하기 위해 교육 시스템에서 다양한 성공의 정도를보고 한 논문이 발표되었습니다. 예를 들면, http://deeplearning.stanford.edu/lexfree/lexfree.pdf입니다. 필기하고 싶은 알파벳은 단어를 적는 것보다 오히려 단어 소리를 포착하도록 특별히 고안된 것 같아요. 그러한 모델을 훈련 할 때 더 많은 성공을 거둘 수 있습니다.

  3. TensorFlow로 가능합니까? 네. TensorFlow는 최신의 심층 학습 아키텍처를 구현하는 데 적합합니다. 이 목적을 위해 정말로 이상하고 독창적 인 모델을 설계하지 않으면 TensorFlow가 잘 작동합니다.

편집 : 나는 별도로 발음 같은 소리 같은 소리가있을 때 다른 될 것이라고 기대하기 때문에 1 부에서 몇 가지 생각 후, 당신은 데이터 세트의 매핑이 자신의 녹음 방송에 말씀을 사용하는 것 단어로 사용됩니다.