2010-12-22 2 views
1

워드 문서 파일을 구문 분석하려고합니다. PHP를 사용하여 업로드 한 다음 file_get_contents();를 사용하여 내용을 가져 오려고합니다. 기능을하지만 문제는이 앞에 표시 할 때 PHP를 사용하여 문자열에서 가비지 텍스트를 정리하는 방법은 무엇입니까?

Æ�Ѐ¤d�¤d�[$\$gd®l±����„h¤d�¤d�[$\$^„hgd®l±��� 
&�F�¤d�¤d�[$\$gd3¡���gd3¡����„,¤d�¤d�[$\$^„,gd(E����¤d�¤d�[$\$gdÿ/��<��C��D��I��Å������O��P��‚��¡��¢��¬��­��®��Ù��ã��ó��ô����� 

그래서 제 질문은 내가이 텍스트를 정리할 수있는 방법입니다

처럼 거기에 쓰레기 코드의 많은 끝인가?

답변

1

워드 문서 (docx 및 doc과 같은)는 스트레이트 텍스트 파일이 아닙니다. 실제로 바이트 0의 텍스트가 아닌 독점적 인 파일 유형입니다. 이것이 멋진 서식 및 글꼴입니다. .docx 파일은 실제로 무수히 많은 XML 및 스타일이 포함 된 아카이브 (.zip 파일)입니다.

가장 좋은 방법은 텍스트 입력 양식을 사용하거나 텍스트 만 추출 할 수있는 온라인 코드를 찾는 것입니다. 또는 자신의 컴퓨터에 doc 파일을 다운로드하고 자신의 복사본을 사용하여 엽니 다.