웹 페이지를 압축 텍스트 파일 (CSV)로 저장하려고합니다. 최적의 압축을 얻으려면 1000 개의 웹 페이지 세트를 제공하고 싶습니다. 그런 다음 도서관은이 콘텐츠를위한 최적의 "사전"을 만드는 데 시간을 할애해야합니다. 하나의 명백한 "사전"엔트리는 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
일 수 있습니다. 거의 모든 웹 페이지에 있기 때문에 % 1 또는 이와 비슷한 것으로 저장 될 수 있습니다. 이와 같이 사용자 정의 사전을 작성하면 압축률이 제 경우에 99 %가되어야합니다.텍스트 데이터를 압축하여 텍스트로 저장하는 라이브러리
제 질문은 MIT 또는 유사한 자유 라이센스가있는 Windows에서이 작업을 수행 할 수있는 라이브러리가 있는지 여부입니다. 그렇지 않다면 권장할만한 범용 압축 라이브러리가 있습니까? zlib로 조금 해봤지만 바이너리 데이터를 출력합니다. 이 바이너리 데이터를 텍스트로 변환하면 원본 텍스트보다 결과가 더 오래 될지 모른다는 걱정이 듭니다.
EDIT : 텍스트를 CSV 파일에 저장하고 데이터베이스 또는 Excel로 가져올 수 있어야합니다.
프로그래밍 언어 란 무엇입니까? 허프만 압축 라이브러리 용 Google. 보십시오 [libhuffman] (http://huffman.sourceforge.net/) – sled
그래서 나는 C++로 작성되어야한다거나 비슷하게 DLL을 찾고있다. – David
저는 교육 목적으로 라이브러리가 아닌 다른 DLL을 찾지 않고 인터넷 검색을했습니다. – David