-1
프랑스 위키 백과 사전 덤프 XML 파일에서 일반 텍스트 파일을 가져오고 싶습니다. 이를 위해 , 나는 내가 이곳에서만 스크립트에 라인리눅스 터미널에서 PERL 스크립트를 실행할 때 강조된 글자 유지
tr/a-zàâééèëêîôûùç-/ /cs;
을 추가, 필요하면 내가 전체 파일을 줄 수있는 펄 스크립트
을 적용하고 그러나 http://mattmahoney.net/dc/textdata.html
, 때 리눅스 터미널에서 실행 :
perl filterwikifr.pl frwiki.xml > frwikiplaintext.txt
출력 텍스트 파일은 강조 문자를 올바르게 인쇄하지 않습니다. 더 나은 성공하지
perl -CS filterwikifr.pl frwiki.xml > frwikiplaintext.txt
(대신 -CS...
의 다른 변종)
"일반 텍스트"의 개념은 실제로 존재하지 않습니다. 출력 파일은 어떤 형식으로 인코딩되어야합니다. 정말로 7 비트 ASCII 출력 만 원한다는 의미입니까? – b4hand
필자는 강조된 글자가 그대로 유지되기를 원한다. (출력은 UTF-8이어야하지만 유니 코드의 전문가는 아니다.) LibreOffice로 파일을 열면 작동하지만 텍스트 편집기를 사용하면 이상한 문자가 인쇄됩니다. – Mostafa
'$ LANG'과'env |'의 내용은 무엇입니까? grep LC_'? – b4hand