사전 앱을 쓰고 있습니다. 사용자가 유니 코드 문자를 입력하면 해당 문자가 어떤 언어인지 확인하고 싶습니다.거친 유니 코드 -> CLDR이없는 언어 코드?
字 - returns ['zh', 'ja', 'ko']
العربية - returns ['ar']
a - returns ['en', 'fr', 'de'] //and many more
й - returns ['ru', 'be', 'bg', 'uk']
내가 검색하고 CLDR 함께 할 수 있다는 것을 발견 https://stackoverflow.com/a/6445024/41948
또는 구글의 API가 큰 문자표 DB를 찾고
하지만 내 경우
- 에서 Python - can I detect unicode string language code? 비용 법한 많은 저장 공간과 메모리
- API 호출 속도가 너무 느리며 네트워크 연결이 필요합니다. 이온
- 매우 정확할 필요는 없습니다. 약 80 %의 정확한 비율을 수용 할 수 있습니다.
- 간편한 & 빠른 요구 사항은
- 입니다. UCS2 BMP 문자만으로도 충분합니다.
팁이 있습니까?
이 코드는 Python과 Javascript에서 사용해야합니다. 감사!
가능한 접근 방식을 평가할 때 왜 그런지 알 수 있습니다. 어떤 큰 언어 목록에서 "a"라는 글자가 사용되었다는 정보로 무엇을 할 것입니까? –
아마도 "a"는 나쁜 예일 수 있습니다. 앞서 언급했듯이 사용자가 찾고자하는 언어를 기반으로 추가 정보 (또는 광고)를 제공 할 수있는 사전 앱을 작성 중입니다. – est
나는 "a"가 좋은 예라고 생각한다 : 수백 가지의 가능한 언어가있을 것이므로 * 언어를 추측하기는 다소 어려울 것이다. –