C#을 UTF-8 바이트의 혼란

System.Text.Encoding.UTF8.GetString(new byte [] { (byte)0xa0 });

는

"\u00a0"

발생하지 않는 이유는 무엇입니까?

대신 "\ufffd"이 표시됩니다.

https://en.wikipedia.org/wiki/Non-breaking_space에 따르면 0xa0은 UTF-8에서 유효한 비 분리 공백이어야합니다.

2017-02-14 CoderBrien

0xa0은 UTF-8에서 유효한 비 분리 공백이어야합니다.

아니요, 아닙니다. 이것은 Latin1 및 유니 코드 (또는 UTF-16 및 UTF-32) 문자 집합 모두에서 유효합니다.

UTF-8 인코딩의 경우 C2 A0으로 인코딩됩니다. 일반적으로 0x80보다 낮은 문자 만 UTF-8의 단일 바이트에 매핑됩니다.

2017-02-14 02:33:51

아, 감사합니다. 그래서 만약 내가 공백이 될 것으로 예상되는 0xa0 바이트와 8 바이트 텍스트가 있다면 그것은 가장 가능성 Latin1 인코딩 무엇입니까? – CoderBrien

U + 00A0에서 0xA0으로 매핑되는 여러 인코딩이 있습니다. Latin-1 (그 이름의 ISO와 Windows 인코딩 사이에 차례로 모호함)은 가능성이 있지만 확실하지는 않습니다. –

@CoderBrien : 아마도. 또는 다른 구식 1 바이트 인코딩. –

답변