2017-02-08 18 views
0

어디에서 그런 코퍼스를 찾을 수 있습니까? 토큰 (단어) 수준에서 힌디어와 영어 사이에 언어 감지기를 구축해야합니다.로마자 스크립트의 힌디어 텍스트의 큰 코퍼스

예를 들어, 로마 알파벳의 힌디어 위키 백과 같은 것이 유용 할 것입니다. 단편 소설, 소셜 미디어 게시물 또는 짹짹 또는 블로그? 어떤 아이디어?

기존 음역 엔진은 내가 할 수있는 한 좋지 않습니다. 좋은 것이 있다면 그것을 사용하는 것도 고려할 것입니다.

+1

예를 들어 [Sanskrit Transliteration의 국제 알파벳] (https://en.wikipedia.org/wiki/International_Alphabet_of_Sanskrit_Transliteration) 규칙에 따라 자신의 음역 유틸리티를 사용하십시오. AFAIK, 인도어 텍스트는 라틴 알파벳으로 작성된 적은 없습니다. 음역은 이름에 대해서만 사용되며, 비 인도어 알파벳을 사용하는 언어로 작성된 책에서는 격리 된 단어 또는 짧은 단편을 사용합니다. – AlexP

+0

지난 10 년 동안 "Romanagiri"(로마어 스크립트 힌디어)는 인스턴트 메시징 및 소셜 미디어에서 보편적으로 사용되었습니다. 그러나 그 언어에는 책이나 구조화 된 텍스트가 없다는 것은 사실입니다. 귀하의 제안은 실제로 기준선이지만 음역과 충분히 유사하지는 않습니다. – ashu

+1

Iris Kanpur (2015), Hrishikesh Terdalkar 및 Shubhangi Agarwal의 "[Romanagari Detection in Twitter] (http://home.iitk.ac.in/~hrishirt/cs671/project/report.pdf)"를 참조하십시오. 데이터 세트 섹션이 도움이 될 수 있습니다. 저자의 전자 우편 주소는 [포스터] (http://home.iitk.ac.in/~hrishirt/cs671/project/poster.pdf)에 있습니다. – AlexP

답변

1

hindibible.org를 사용해보십시오. wget을 사용하여 웹 사이트를 다운로드하면 음역 된 힌디어로 된 성경 전체가 나옵니다. devnagri에서 텍스트를 읽도록 도와 줄 수 있습니까? 그들의 웹 사이트는 힌디어로 텍스트를 표시하지만 다운로드 한 html 파일은 음역 된 영어로되어 있습니다. 그리고 웹 사이트가 서버를 종료하기로 결정한 경우 devnagri에서 해당 음역 된 html 파일을 읽을 수 있기를 원합니다.