2011-09-07 2 views
0

저는 Elman Simple Recurrent Network를 작성하고 있습니다. 나는 각 단어가 음소의 연속 인 단어의 연속을주고 싶다. 그리고 나는 많은 훈련과 시험 데이터를 원한다.Elman SRN (영어) 용 Word/Phoneme Corpus

내가 필요한 것은 ARPAbet 또는 SAMPA와 같은 것으로 작성된 음소와 함께 영어 단어의 모음입니다. 영국 영어는 좋을 지 모르지만 내가 다루는 것을 알고있는 한 필수는 아닙니다. 어떤 제안?

나는 현재 음성이나 서면 데이터로 구성된 음소를 유도 할 시간이나 성향을 갖고 있지 않으므로 제안하지 마십시오.

참고 : 나는 CMU Pronouncing Dictionary을 알고 있지만 ARPABet 기호 세트만을 기반으로한다고 주장합니다. 실제로 차이가 있는지 알면 누구나 알 수 있습니까? (어떤 것이 없다면 나는 그것을 사용할 수 있습니다 ...)

EDIT : CMUPD 0.7a Symbol list - 모음에는 어휘 적 스트레스가있을 수 있으며이를 나타내는 ARPABET 표준 기호의 변형이 있습니다.

+0

CMUPD ARPABet과 다른 점은 무엇입니까? 정규 arpabet? – ealdent

+0

예, CMUPD ARPAbet 및 일반 ARPAbet. –

답변

3

CMUdict가 좋을 것입니다. "Arpabet symbol set"은 Arpabet을 의미합니다. 사소한 차이점이 있으면 CMUdict 문서에서 설명해야합니다.

개별 단어의 사전 발음을 함께 묶는 것보다 실생활에 가까운 데이터가 필요한 경우 소리 나는대로 옮겨진 코사인 (예 : TIMIT)을 찾으십시오.

+0

내 주요 문제는 해당 구의 "기호 집합"부분이 아니라 "기반 부분"부분입니다. 내 질문에 링크 된 페이지의 설명과 결합 된 [기호 목록] (https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/cmudict.0.7a.symbols)을 확인하십시오 , 유일한 차이점은 어휘 적 스트레스를 나타내는 변형을 추가 한 것입니다. 또한 소리 나는대로 말한 코퍼에 대해 언급 해 주셔서 감사합니다. 그 말은 제가 한 번 들여다보기에 좋은 방향인데, 저는 개별 단어에 대한 기초가 잘 작동하고 있습니다. –