2011-08-18 4 views

답변

11

코드 포인트의 인코딩은 필요한 것보다 많은 코드 단위를 필요로합니다.

예를 들어 U + 0020은 UTF-8로 단일 바이트 0x20으로 표시됩니다. 0xc0 0xa0 두 바이트를 정상적으로 디코드하면 U + 0020으로 다시 돌아 가게되지만 잘못된 표현입니다.

Unicode Corrigendum #1에는 특히 표 3.1B에 대한 추가 정보가 있습니다.

2

UTF-8은 이론적으로 더 짧은 문자를 다른 표현으로 허용합니다. 예를 들어 MSB를 0으로 설정하여 ASCII 문자를 2 바이트로 인코딩 할 수 있습니다. UTF-8 명세는이를 명시 적으로 금지하고있다.

+0

끔찍한 말. 아래로 투표했다. – Computer

+0

@Computer : o.O 어떤 말장난을 놓쳤습니까? – Joey

+0

당신은 말했습니다! – Computer