나는 정확한 수치를 모르는
하지만 일본어은 Shift_JIS 평균에 적은 UTF-8 이상의 문자 당 바이트 등을 데리러 EUC-JP는 일본어 텍스트에 최적화되어 있으므로 그러나 유니 코드와 동일한 코드 포인트 공간을 다루지 않으므로 질문에 대한 정답이 아닐 수 있습니다.
일본어 문자의 경우 UTF-16보다 낫습니다 (3 바이트가 아닌 문자 당 2 바이트). 7 비트 문자가 많으면 UTF-8보다 좋지 않습니다. 문맥에 따라 다르지만 기술 텍스트는 1 바이트 범위에서 많은 문자를 포함 할 가능성이 더 큽니다. 고전적인 일본어 텍스트는 없을 수 있습니다.
전송시 데이터를 압축 (gzip, bz2) 할 수 있으면 인코딩이 중요하지 않음에 유의하십시오. 유니 코드의 알파벳에 대한 코드 포인트는 서로 가깝기 때문에 압축 된 데이터에서 매우 짧은 표현으로 일반적인 접두어를 사용해야합니다.
UTF-8은 일반적으로 UTF-32 또는 UTF-16보다 압축되어 있고 ASCII * 또는 ISO-8859-1 NUL- 종료 된 문자열. 비록 인덱스에 의한 문자에 대한 랜덤 액세스가 필요하다면 쓸모가 없습니다.
BMP가 아닌 문자를 신경 쓰지 않는다면 UCS-2는 문자 당 2 바이트이므로 임의 액세스가 가능합니다. 하지만 그것은 '유니 코드'가 의미하는 바에 달려 있습니다.
의견을 통해 downvoting 이유를 설명 할 때 용기의 부족과 대조되는 downvoting 대담함에 대해 downvoter를 칭찬하고 싶습니다 ...^_^... – paercebal
어쩌면 그들은 중국어 또는 베트남어를 말할 수 있습니다. 통일 한스 캐릭터의 일부가 비행기 2에 있기 때문에 언어가 중요하지 않다고 화를 냈습니다. 아마도 그들은 클링 온 (Klingon)을 말하고 화 내고 말았습니다. 어디에서나 유니 코드로) 표준 이었지만 라틴어는 Klingon의 표준 스크립트입니다. ;) –