2012-07-06 4 views
2

PHP 문자열의 특수 문자를 일반 문자로 바꾸려고합니다 (예 : ó 대신 o, á 대신 a). 그러나PHP 문자열의 특수 문자 교체 문제

if (!Normalizer::isNormalized($word, Normalizer::FORM_C)) 
{ 
    echo "original: ".$word; 
    $word = Normalizer::normalize($word, Normalizer::FORM_C); 

    echo "\tnormalized: ".$word."<br />"; 
    exit; // see if it worked without having to go through every file 
} 

, 노멀 :: 정상화가 null 반환하고 그 코드의 출력했다 :이 이후

original: adiós normalized:

다음 코드에서와 같이 PHP 노멀 :: 정규화 기능을 사용하여 시도 메서드가 작동하지 않는 것처럼 보였습니다. 특수 문자를 제거해야하는 함수를 찾았습니다. 여기에 기능은 다음과 같습니다

function normalize ($string) { 
    $table = array(
     'Š'=>'S', 'š'=>'s', 'Đ'=>'Dj', 'đ'=>'dj', 'Ž'=>'Z', 'ž'=>'z', 'Č'=>'C', 'č'=>'c', 'Ć'=>'C', 'ć'=>'c', 
     'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 
     'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 
     'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss', 
     'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 
     'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 
     'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 
     'ÿ'=>'y', 'Ŕ'=>'R', 'ŕ'=>'r', 
    ); 

    return strtr($string, $table); 
} 

이 코드는하지만, 눈에 띄는 영향을 미치지 않았다, 나는 윈도우 7에서 * .txt 인 파일에서 내 문자열을 얻을 수있어에 전달 된 동일한 문자열

를 반환했습니다.. 나는 인코딩을 아주 잘 해 본 적이 없으며,이 문제에 대한 도움을 주시면 감사하겠습니다.

+0

정상화 하시겠습니까? 한 글자에서 다른 글자로의 변환 (K와 F를 서로 바꿀 수 있음). 그러면 합법적 인 단어가 쓰레기로 바뀔 수 있습니다. –

+0

정규화가 올바른 단어가 아니지만 내 원하는 결과입니다 - 문자를 바꿀 수 있습니다. – jeff

+0

왜? ** adiós **는 정확한 철자입니다. * adios *는 –

답변

3

코드를 복사하여 내 편집기에 붙여 넣으면 재미있는 일이 발생했습니다. adios을 얻는 대신에 나는 adjiós을 얻고있었습니다. d 다음에 중간에 j이 있습니다. 이것은 테이블 맵의 첫 번째 줄에있는 'đ'=>'dj',에서 왔습니다. 분명히 내 편집자는 đ을 일반 d으로 변경했으며 ó을 변환하지 않았습니다. 이 키/값 쌍을 제거하고 갑자기 나를 위해 일했습니다. 당신은 당신의 모든 키는 다음 제거 đ 내 테스트 파일 (이다 (? 당신 편집기 대체 문자 세트를 승인 않습니다) 확인 편집기에서 올바른됩니다 위치 :

<html> 
<head> 
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-8859-1"> 
</head> 
<body> 
<?php 

function normalize ($string) { 
    $table = array(
     'Š'=>'S', 'š'=>'s', 'Ð'=>'Dj', 'Ž'=>'Z', 'ž'=>'z', 'C'=>'C', 'c'=>'c', 'C'=>'C', 'c'=>'c', 
     'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 
     'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 
     'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss', 
     'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 
     'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 
     'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 
     'ÿ'=>'y', 'R'=>'R', 'r'=>'r', 
    ); 

    return strtr($string, $table); 
} 

$word = 'adiós'; 
$length = strlen($word); 

echo 'original: '. $word; 
echo '<br />'; 
echo 'normalized: '. normalize($word); 
echo '<br />'; 
echo 'loop: '; 

for($i = 0; $i < $length; $i++) { 
    echo normalize($word[$i]); 
} 

?> 

</body> 
</html> 

'd' => 'dj'에서 각 문자를 통해 내가 루프 배열지도가 나는 올바르게이 페이지에서 좋은 팁이있다 adjios

+0

분명히 숭고한 텍스트 2는 대체 문자 세트를 지원하지 않습니다. 메모장에서 동일한 코드를 붙여 넣기 ++ 완벽하게 작동했습니다. 감사! – jeff

4

수 : How to remove diacritics from text?은 여기 내 버전입니다 :

/** Normalize a string so that it can be compared with others without being too fussy. 
* e.g. "Ádrèñålînë" would return "adrenaline" 
* Note: Some letters are converted into more than one letter, 
* e.g. "ß" becomes "sz", or "æ" becomes "ae" 
*/ 
function normalize_string($string) { 
    // remove whitespace, leaving only a single space between words. 
    $string = preg_replace('/\s+/', ' ', $string); 
    // flick diacritics off of their letters 
    $string = preg_replace('~&([a-z]{1,2})(?:acute|cedil|circ|grave|lig|orn|ring|slash|th|tilde|uml|caron);~i', '$1', htmlentities($string, ENT_COMPAT, 'UTF-8')); 
    // lower case 
    $string = strtolower($string); 
    return $string; 
} 

그것은 좋은 때문에의 iconv 방법, 표준과는 달리 위의 이온화 된, 문자 집합 (그들은 지뢰밭) 사이에 변환이 없습니다.