2014-10-20 9 views
2

Mailparse를 사용하여 전자 메일을 구문 분석하고 MySQL 데이터베이스에 저장합니다. 이메일은 PHP 스크립트로 직접 전달됩니다. 시스템에 대한 이메일의 99 % 이상이 올바르게 구문 분석됩니다. 그러나 일부 이메일이 잘 리게 된 것을 보았습니다. 보인다 문제는 ... 메시지의 헤더와 본문 사이의 유니 코드 문자입니다ASCII가 아닌 문자에 대한 PHP Mailparse 쵸크

Delivered-To: [email protected] 
Received: by 10.152.1.193 with SMTP id 1csp311490lao; 
     Mon, 20 Oct 2014 05:33:31 -0700 (PDT) 
Return-Path: <[email protected]> 
Received: from vps4596.inmotionhosting.com (vps4596.inmotionhosting.com. [74.124.217.238]) 
     by mx.google.com with ESMTPS id fb7si7786786pab.30.2014.10.20.05.33.30 
     for <[email protected]> 
     (version=TLSv1 cipher=RC4-SHA bits=128/128); 
     Mon, 20 Oct 2014 05:33:30 -0700 (PDT) 
Message-ID: <[email protected]> 
From: =?utf-8?Q?Annelen_geretschl=C3=A4ger?= <[email protected]> 
To: "neokio" <[email protected]> 
References: <[email protected]l.gmail.com> 
In-Reply-To: <[email protected]om> 
Subject: This message will be broken 
Date: Mon, 20 Oct 2014 14:33:24 +0200 
MIME-Version: 1.0 
Content-Type: multipart/alternative; 
    boundary="----=_NextPart_000_0018_01CFEC72.CE424470" 
X-Priority: 3 
X-MSMail-Priority: Normal 
Importance: Normal 
X-Mailer: Microsoft Windows Live Mail 14.0.8117.416 
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8117.416 
X-Source: 
X-Source-Args: 
X-Source-Dir: 

Det här är ett flerdelat meddelande i MIME-format. 

------=_NextPart_000_0018_01CFEC72.CE424470 
Content-Type: text/plain; 
    charset="utf-8" 
Content-Transfer-Encoding: quoted-printable 

This is a test ... the above "Det här är" chunk will be cut off at "Det h", and nothing else will arrive. 

------=_NextPart_000_0018_01CFEC72.CE424470 

위 단지 헤더 후립니다 및 도착이 모두 "DET 시간"입니다 얻을 것이다. 어떻게 든 ASCII가 아닌 문자 (ü)는 헤더 나 멀티 파트 래퍼 외부에있을 때 메일 파열을 막습니다. Microsoft Windows Live Mail의 5 년 된 스웨덴어 버전으로 클라이언트가 사용 중이며 헤더 등을 엉망으로 만들 수 있습니다.하지만 그건 변명의 여지가 없습니다. 수신 할 수 있어야합니다.

저는 php.ini에서 default_charset = "utf-8" 인 PHP 5.4.30을 실행 중입니다. 그러나 나는 그것에 대해 php.ini에 설정이 없더라도 phpinfo()은 기본적으로 mailparse.def_charset = "us-ascii"을 가졌다. 줄을 추가하고 "utf8"으로 설정하면 phpinfo()에 utf-8이 올바르게 표시됩니다. 그러나 오류가 지속됩니다. 나는 아이디어가 없어.

이 오류를 해결하는 방법에 대한 제안 사항이 있으십니까?

+0

흠, 흥미 롭다. 나는 또한 메일 링리스트 엔진을 작성 중이며'mailparse'를 사용하여 소스를 파싱합니다. 네, 그 곳에서 질식 ... 너무 해결책을 찾으려고 노력할 것입니다) – Cheery

+0

질문이 있습니다 - 당신은 그 메시지를 어디서 들었습니까? 'quoted-printable' 버전의 텍스트는'This is a test ... the above "이다. Det h = C3 = A4r = C3 = A4r"Chunk는 "Det h "- 당신의 끈 대신에 그것을 시험해보십시오. – Cheery

+0

그래, 결과는 똑같이 알려줍니다. -'경고 : mailparse_msg_extract_part() - 필터 변환에 실패했습니다. 입력 메시지가 잘못 인코딩되었습니다. ' 각 섹션의 'mailparse_msg_get_part_data'헤더에있는 데이터를 기반으로 파일에서 본문을 직접 추출 할 수 있지만 직접 해독해야합니다. – Cheery

답변

3

의견에서 언급 한 것뿐입니다 ...이 부분은 메시지 섹션과 관련이 있습니다. 어떠한 이유로 든 디코딩이 실패하면 내용은 '있는 그대로'반환됩니다. $headers['transfer-encoding'];을 기반으로 디코딩을 시도하거나 변경하지 않을 수 있습니다. $email은 헤더가있는 전체 메시지 소스입니다. $section (나는 단지 내가 실제로 필요한 헤더를 떠나 일부 조작 후) (구글, 설명서, 예) mailparse_msg_get_part에 의해 얻어진 데이터

$headers = mailparse_msg_get_part_data($section); 
$content = ''; 

set_error_handler(function() use(&$content, $headers, $email){ 
    $start = $headers['starting-pos-body']; 
    $end  = $headers['ending-pos-body']; 
    $content = substr($email, $start, $end - $start); 
}); 

ob_start(); 
mailparse_msg_extract_part($section, $email); 
$body = ob_get_clean(); 

restore_error_handler(); 

if (!empty($content)) $body = $content; 

결과

["charset"]=> 
string(5) "utf-8" 
["content-charset"]=> 
string(5) "utf-8" 
["content-type"]=> 
string(10) "text/plain" 
["content"]=> 
string(108) "This is a test ... the above "Det här är" chunk will be cut off at "Det h", and nothing else will arrive. " 
+0

위대한 해답, 고마워요 :) – neokio