최근까지만해도 블로그에서 PHP와 MySQL의 문자 인코딩 설정이 일치하지 않았습니다. 그 이후로 근본적인 문제가 해결되었지만 쓰레기로 가득 찬 텍스트가 여전히 있습니다. 예를 들어 ï
은 ï
이되었습니다.문자 인코딩 도구를 통해 전송 된 문서는 어떻게 복구합니까?
패턴 인식 및 통계를 사용하여 깨진 텍스트를 자동으로 발견하고 고칠 수있는 소프트웨어가 있습니까?
예를 들어, U+00EF
(UTF-8 0xC3 0xAF
)이 U+00C3 U+00AF
(UTF-8 0xC3 0x83 0xC2 0xAF
)이 된 것 같습니다. 즉, 코드 포인트에 16 진수 인코딩이 사용되었습니다. 이 패턴은 내 사이트에서 (비 연속적으로) 비 ASCII 문자로 발생했습니다.
나는 분명히하기 위해 나의 글을 편집했다 : 그것은 단지이 캐릭터가 아니다. 내 말은, 확실히 DB를 덤프하고, 비 ASCII 문자 시퀀스를 모두 찾고, 원래 값 (적절한 경우)을 찾고, 파일 전체에서 찾기 및 바꾸기를 직접 실행할 수는 있지만 ... 보다 일반적인 해결책. – phyzome