소프트웨어 릴리스 노트에는 모든 릴리스에서 추출 할 중요한 데이터가 있습니다. Microsoft Word에서 특정 정보를 추출하는 방법이 있습니까?Microsoft Word에서 데이터를 추출하는 가장 좋은 방법
내가 생각하고있는 응용 프로그램은 C#으로 작성되지만 다른 해결책이라면 괜찮습니다.
소프트웨어 릴리스 노트에는 모든 릴리스에서 추출 할 중요한 데이터가 있습니다. Microsoft Word에서 특정 정보를 추출하는 방법이 있습니까?Microsoft Word에서 데이터를 추출하는 가장 좋은 방법
내가 생각하고있는 응용 프로그램은 C#으로 작성되지만 다른 해결책이라면 괜찮습니다.
VSTO (Office 용 Visual Studio Tools) 도구로 많은 Excel 프로그래밍을했는데 VSTO API를 사용하여 doc이라는 단어를 읽을 수있을 것입니다. C#을 사용할 수 있어야합니다.
IFilter을 작성하여 단어 파일에서 텍스트를 추출 할 수 있습니다. Word를 설치할 필요가 없습니다.
모든 MS Office 제품 (Word, Office 등)은 내부적으로 (VBA를 사용하여) 외부 적으로 (모두 ActiveX라고도하는 OLE Automation을 통해 스크립팅 가능하며 사실 VBA는 OLE를 통해 노출 된 인터페이스를 사용합니다.
내 제안은이 언어를 지원하는 언어로 된 라이브러리를 찾는 것입니다. Here은 Perl 모듈 인 Win32::OLE
에 대한 링크입니다. 알다시피 매우 사용하기 쉽고 강력합니다. 인터페이스는 다른 언어와 비슷해야합니다.
나는 몇 년 전에 이것을 경험했다. 당신은 할 수 있습니다
사용 워드는 ASCII와 같은 다른 형식으로 변환하는 등
사용하는 일부 타사 응용 프로그램 다른 형식으로, ASCII, RTF, XML로 파일을 변환합니다.
OLE를 통해 Word API에 액세스하고 정보를 직접 추출하십시오.
Word 파일을 읽는 일반 라이브러리를 찾을 수 없으며 Word 파일을 읽는 모든 응용 프로그램은 하위 집합에서만 작동했습니다. 단어가 자주 바뀌어 문제를 해결하지 못했습니다.
이전 Word 파일 형식의 특성을 나열한 문서가 있었지만 기본 파일 구조가 너무 복잡합니다. 많은 리소스가 없으면 코드를 파일 형식과 동기화하는 것이 어려울 수 있습니다.
처음에는 Perl을 사용하여 Word를 구동하고 새 문서를 만들었지 만 해결책은 너무 약했습니다. 나중에 전체 응용 프로그램을 대신 PDF로 작업하도록 전환하고 Word에서 포기합니다.
폴.
Word (VBA, VSTO) 내부 또는 외부에서 작업 할 수 있습니다.
외부에서는 자동화가 한 가지 방법입니다.
다른 방법은 Word를 완전히 사용하지 않는 것입니다. 문서가 .docx 인 경우 Open XML 파일을 조작 할 수있는 모든 것을 사용할 수 있습니다. Microsoft는 Open XML SDK를 보유하고 있으며 Java 환경에서는 docx4j 또는 POI를 사용할 수 있습니다.
아마 가장 우아한 해결책은 아니지만 가장 가벼운 방법 인 것 같습니다. Cscript를 사용하십시오.
샘플 단어 doc (2003)에서 시험해 보았는데 완벽하게 작동합니다.
자세한 정보 : http://www.gregthatcher.com/Papers/VBScript/WordExtractScript.aspx