2014-12-12 2 views
-1

프랑스 위키 백과 사전 덤프 XML 파일에서 일반 텍스트 파일을 가져오고 싶습니다. 이를 위해 , 나는 내가 이곳에서만 스크립트에 라인리눅스 터미널에서 PERL 스크립트를 실행할 때 강조된 글자 유지

tr/a-zàâééèëêîôûùç-/ /cs; 

을 추가, 필요하면 내가 전체 파일을 줄 수있는 펄 스크립트

을 적용하고 그러나 http://mattmahoney.net/dc/textdata.html

, 때 리눅스 터미널에서 실행 :

perl filterwikifr.pl frwiki.xml > frwikiplaintext.txt 

출력 텍스트 파일은 강조 문자를 올바르게 인쇄하지 않습니다. 더 나은 성공하지

perl -CS filterwikifr.pl frwiki.xml > frwikiplaintext.txt 

(대신 -CS...의 다른 변종)

+2

"일반 텍스트"의 개념은 실제로 존재하지 않습니다. 출력 파일은 어떤 형식으로 인코딩되어야합니다. 정말로 7 비트 ASCII 출력 만 원한다는 의미입니까? – b4hand

+0

필자는 강조된 글자가 그대로 유지되기를 원한다. (출력은 UTF-8이어야하지만 유니 코드의 전문가는 아니다.) LibreOffice로 파일을 열면 작동하지만 텍스트 편집기를 사용하면 이상한 문자가 인쇄됩니다. – Mostafa

+1

'$ LANG'과'env |'의 내용은 무엇입니까? grep LC_'? – b4hand

답변

1

문제가 텍스트입니다 : 예를 들어, 나는 CATA ©의 나는 또한 시도

대신 catégorie의 gorie을 ... 수 편집기 gedit.

파일을 직접 여는 대신 gedit을 연 다음 "문자 인코딩"에서 "열어서"아래로 이동 한 후 "자동 감지 됨"대신 UTF-8을 선택하면 악센트가 인쇄됩니다 바르게.