처리해야 할 엄청나게 많은 스레드가 있습니다. 이 이메일들은 각각 정상적으로 응답 했으므로 수백 개의 이메일을 보낼 때까지 각각의 이메일에 대한 전체적인 기록이 중요하지 않습니다.Thunderbird에서 내 보낸 .eml 파일에서 오래된 메시지를 제거해야합니다.
그래서 저는 그들을 Thunderbird에서 모두 열고 내 보냈습니다. 이제는 각 이메일을 개별 콘텐츠로 스트립하는 방법을 찾아야합니다. 답장 비트는 그대로두고 다른 전자 메일의 실제 내용을 제거하십시오.
필자는 파이썬을 사용하고 있는데, 익숙하기 때문에 파이썬을 XML 구문 분석에 사용했습니다. 나는 BeautifulSoup를 시도했는데, 3D "gmail_quote"div 엘리먼트를 제거하는 데는 효과적 이었지만 다른 엘리먼트의 다양한 비트를 래핑하여 .eml 파일의 나머지 부분을 이해하려고 시도한 것으로 보입니다. 형식을 망치고.
순수 XML이 아니지만 일반 XML을 만지지 않고도 유효한 XML, 특정 div 클래스의 모든 인스턴스 및 해당 자식을 포함하는 파일을 제거해야합니다. 내가 사용하고자하는 섹션은 유효한 XML입니다 (또는 속성에 대한 이상한 따옴표가있는 BeautifulSoup에 충분히 가깝습니다).
나는 신체의 답장을 벗겨야 만한다는 것을 알고있다. 그러나 그것은 충분히 쉽다.