2011-09-01 3 views
0

질문이나 답장을하기에 적절한 장소인지 확실하지 않지만 어쨌든 묻습니다. 독일어 클라이언트에서 작업 한 적이 있습니다. 이 매우 이상한 문제가 나타나기 시작했습니다.붙여 넣기 후 악센트 부호가있는 문자가 문자 뒤에 나오는 이상한 문자로 표시됩니다.

따라서 웹 사이트의 콘텐츠를 채우는 동안 pdf 시트에서 내 편집자 (에스프레소)로 복사/붙여 넣기합니다. 이상한 일은 모든 텍스트가 에디터에서 초기 상태로 보이지만 브라우저에서 열면 악센트 부호가있는 악센트가있는 이상한 표현이 나오기 시작합니다. 그래서 'Ö'가 O로 표시되는 등 ...

나는 유니 코드 문제라고 생각했지만 사이트는 utf8로 선언되었고, 서식있는 텍스트 나 입력되는 내용은 없습니다. 그냥 원래 텍스트 클라이언트가 파일을 직접 편집하면 올바르게 나타납니다. 그리고 악센트 부호가있는 문자를 수동으로 입력하고 바꿔도 알 수 있습니다.

누구나 비슷한 경험/솔루션?

본질적으로 라틴 문자이기 때문에 현지화/글꼴 문제가 없어야하겠습니까? (올바른 경우 나)

답변

3

PDF에서 잘라내어 붙여 넣기를 신뢰할 수 없습니다. 내부 형식이 그대로 표시됩니다. :-)

PDF는 인쇄 된 페이지를 올바르게 보이게하기 위해 내부적으로 특수 인코딩을 사용할 수 있지만 붙여 넣기를 복사 할 수있는 것은 아닙니다.

여기에 작은 비트의 StackExchange 질문이 있습니다 : https://tex.stackexchange.com/questions/22213/how-to-get-accented-unicode-characters-that-can-be-copy-pasted.

당신과 상당히 다른 질문은 아니지만, PDF를 어떻게 만드는지는 중요합니다. 일부 Latin-1 (악센트 부호가있는) 문자가 PDF 내에서 유니 코드 코드가 예상되는 문자가 아닌 문자로 올바르게 표시되도록 그리기 지침으로 인코딩 될 수 있습니다.

아마도 this product을 참조하십시오. 나는 그것을 사용하지 않았으므로 그것을 추천 할 수는 없지만, 조금만 탐색하면 사용할 수있는 것을 얻을 수있다. (이 단어는 독일어를 지원한다고 주장합니다.)

+0

일부 ** ** PDF 파일은 안정적으로 잘라내어 붙여 넣을 수 없습니다. PDF 형식 *은 복사 및 붙여 넣기 ("이상한"문자 포함)에 가장 적합한 방식으로 텍스트 저장을 지원합니다. 불행히도 모든 PDF 파일이 실제로 * 사용 * 이러한 기능을 (또는 올바르게 사용). –

+0

어떤 리치 텍스트 형식 (word/pdf/etc)에서 코드 편집기로 잘라 붙이면 텍스트가 자동으로 형식이 아닌 원본 텍스트가 될 것이라고 생각 했습니까? 웹 사용을 위해 pdf에서 텍스트를 어떻게 추출해야합니까? – Winterain

+0

라텍스로 제작 된 이상한 이유로 PDF 파일은 "실제"대신 "구성된 움라우트를 사용하는 경향이 있습니다. –