2017-05-15 3 views
2

를 교체합니다. 그러나 유니 코드 문자는 바뀌지 않지만 그럼에도 불구하고 인코딩됩니다.python3 인코딩은</p> <pre><code>'Brückenspinne'.encode("utf-8",errors='replace') </code></pre> <p>나에게 바이트 시퀀스 <code>b'Br??ckenspinne'</code>를 제공해야 다음 명령을 문서에 따르면 유니 코드 문자

b'Br\xc3\xbcckenspinne' 

실제로 유니 코드 문자를 제거하는 방법을 말해 줄 수 있습니까? (나는 테스트 목적으로 바꾸기 위해 나중에 'xmlcharrefreplace'을 사용하려고합니다. 모든 것을 문자열로 유지하면서 유니 코드 문자를 xmlcharref로 변환하고 싶습니다.)

감사합니다.

답변

2

utf-8 인코딩은 문자 ü을 나타낼 수 있습니다. 대체는 발생하지 않습니다.

문자를 나타낼 수없는 다른 인코딩을 사용하십시오. 예 : ascii :

>>> 'Brückenspinne'.encode("ascii", errors='replace') 
b'Br?ckenspinne' 

>>> 'Brückenspinne'.encode("ascii", errors='xmlcharrefreplace') 
b'Br&#252;ckenspinne'