나는 "어휘 인코딩"이라는 단어를 사용하여 더 나은 언어를 찾지 못했습니다.이론 : "어휘 인코딩"
Word는 틀림없이 Letter와는 달리 의사 소통의 기본 단위입니다. 유니 코드는 알려진 모든 알파벳의 각 문자에 숫자 값을 할당하려고합니다. 한 언어에 대한 편지는 무엇인가, 다른 언어에 대한 문양입니다. 유니 코드 5.1은 현재이 글리프에 100,000 개 이상의 값을 할당합니다. 근대 영어에는 약 180,000 단어가 사용되고 있으며 약 2,000 단어의 어휘로 일반 용어로 대화 할 수 있어야합니다. "어휘 인코딩"은 각 편지가 아닌 각 단어를 인코딩하고 문장 내에 캡슐화합니다.
// An simplified example of a "Lexical Encoding"
String sentence = "How are you today?";
int[] sentence = { 93, 22, 14, 330, QUERY };
이 예에서 문자열의 각 토큰은 정수로 인코딩되었습니다. 여기서 인코딩 스키마는 단어 사용의 일반화 된 통계 순위에 따라 int 값을 할당하고 물음표에 상수를 할당했습니다.
궁극적으로 Word에는 모두 맞춤법이 있습니다. & 의미. 모든 "어휘 인코딩"은 문장의 의미와 의도를 전체적으로 보존하고 특정 언어를 사용하지 않습니다. 영어 문장은 "...language-neutral atomic elements of meaning ..."으로 인코딩되어 구조화 된 구문 형식 및 문법 구조로 모든 언어로 재구성 될 수 있습니다.
"어휘 인코딩"기술의 다른 예는 무엇입니까?
당신은 단어 사용 통계가 어디에서 왔는지에 관심이있는 경우 :이 질문은, 프로그래밍보다 더 언어학에 충돌
http://www.wordcount.org
처음에는 술술적이고 논리적 인 개념처럼 보입니다.이 질문은 의문의 여지가 있지만, 어휘에서 실용에 이르기까지 여러 단계에서 잘못되었습니다. 그것은 언어 이해력이 무엇에 관한 것인가에 반하는 것입니다. – logout
단어 순서가 언어마다 다르다는 것을 잊지 마십시오. 일부 언어에는 영어의 다양한 기능이 없습니다 (예 : '기사'- a, an -, 예 : AFAIK, 일본어). 20 세기 초반에, 사람들은 코드화 서를 사용하여 인코딩을 사용하여보다 복잡한 구문을 전신했습니다 (전보가 단어에 의해 요금을 부과 되었기 때문에). 한 단어는 전체 구 또는 심지어 문장을 의미 할 수 있습니다. 토론에 대한 Kahn의 "The CodeBreakers"(http://www.amazon.com/Codebreakers-Comprehensive-History-Communication-Internet/dp/0684831309)를 참조하십시오. –