이상한 강하게/굵게 유니 코드를 PHP에서 비 굵게 UTF-8 문자로 변환하는 방법?

나는 트위터 API를, 내 데이터베이스에 트윗을 저장하기 위해 노력하고있어하지만 난 일 "원주민"굵은 문자 보인다 strage 문자의 종류를 얻을이상한 강하게/굵게 유니 코드를 PHP에서 비 굵게 UTF-8 문자로 변환하는 방법?

NORMAL CHARS :

azertyuio

STRANGE CHARS : 내 넷빈즈 편집기에서 스트롱의 문자를 붙여 넣을 경우 내가 평방 문자 같은 것을 얻을

!!

...

전에 본 적이 없어요. 이 텍스트를 PHP에서 비 굵은 문자로 변환하도록 도와 주시겠습니까?

출처

2017-02-15 J. Doe

어떤 데이터베이스가 있습니까? 테이블 구조 란 무엇이며, 특히 사용중인 문자 집합/데이터 정렬은 무엇입니까? 이것은 문자 세트 문제처럼 보입니다. 그것은 당신이 당신의 PHP 클라이언트 스크립트 내에서 UTF-8을 사용해야하고 테이블의 필드에 저장해야하는 것으로 보입니다. 이 질문을보십시오 : http://stackoverflow.com/questions/8274972/official-encoding-used-by-twitter-streaming-api-is-it-utf-8 – gview

예를 들면 var_dump (ord (" ')) ; // 240을 반환합니다. var_dump (ord ('s')); // return 115 –

이것은 유니 코드 문자로, 특히 'U + 1D400'에서 'U + 1D7FF'까지의 'MATHEMATICAL SANS-SERIF BOLD SMALL'입니다. –

ansi 대신 UTF 또는 HTML 엔티티 문자 인코딩을 사용하는 이유 중 하나입니다. UTF를 사용하면 이러한 문자 (및 다른 언어의 문자)를 저장하고 표시 할 수 있으며, 사용자가 이러한 문자를 해당 언어/문자 집합으로 입력 할 때 검색을 처리합니다 (동일한 문자로만 작성된 것과 일치 함).

다른 대안으로는 사람들이 사용하기로 선택한 모든 홀수 문자 세트에 대해 "변환"을 작성하는 것입니다. 여전히 이러한 전환이 가능합니다. 시간 가치가 있는지 여부를 결정해야합니다.

제출하신 문자를 산 세리프 수학 굵게 문자라고합니다. 목록 here at w3.org을 찾을 수 있습니다. 뿐만 아니라 표준 (기울어 진, 기울어 진 대담한 변형)이 있습니다 (해당 페이지 상단의 이전 및 다음 링크 사용).

대문자로 변환하는 문자를 소문자로 바꾸는 것과는 달리 (십진수 값에 32를 더하거나 chr(ord(x)+32)) 십진수는 설정되어 있지 않습니다. 모든 문자를 수학용 굵게에서 ANSI는 각 문자 그룹에 해당합니다. 마찬가지로 ord()와 chr()도 이러한 문자에는 사용할 수 없습니다.

예 :에게 올바른 소문자 줄 것이다 120,205 감산 따라서 = 120,211

65 - - A는 65 120,276이고, = 120,205
97 120,276이다

이 120,302이며, A는 97 120,302 인 그러나, 같은 것은 효과가 없을 것입니다. 즉, 캐릭터가 어떤 캐릭터 세트 (수학적 볼드, 기울어 진 수학 등)인지 결정하고, 그것이 속한 서브 세트 (a-z, A-Z, 0-9)를 식별 한 다음, 계산 된 해당 오프셋을 사용하여이를 수정해야합니다. 그렇게하기 위해서는 지원되는 변환 문자셋 중 하나에 맞는 문자를 모든 트윗의 모든 문자를 확인한 다음 해당 문자로 변환해야합니다.

Mathematical Bold 만 사용하는 트윗이 많은 경우 유용 할 수 있지만 모든 종류의 잠재적 인 문자를 포함 할 수있는 큰 트윗 세트를 가져 오는 경우 많은 수의 작업.

가치가 있다고 생각되는 경우 가장 먼저해야 할 일은 변환해야하는지 여부와 상관없이 API에서 수신하는 원시 문자 인코딩을 확인한 다음 그 사이에 매핑할지 여부를 결정하는 것입니다. 문자 집합을 사용하는 문자 세트, 부분 집합에 대한 값 범위 사용 또는 다른 방법. 또한 해당 문자를 스캔하는 방법을 결정해야합니다.

전체적으로 귀하의 질문에 대한 대답은 전환이 가능하다는 것이지만 귀하의 상황과 세부 사항은 그것이 가치있는 것인지 그리고 귀하가 성취하는 방법을 결정할 것입니다. 그것은 당신을 위해 쓰여질 수있는 것이 아닙니다.

출처

2017-02-15 18:34:09

woowww! 이 답장을위한 큰 감사 :) 이제 이해합니다.) 나는이 문제에 대해 웹에서 기능을 찾을 수 있습니다. (그러나 나는 의심 스럽습니다 ...) 감사합니다. –

및 정보 짹짹 이런 종류의 문자는 기본적으로 트위터 –

@ J.Doe FYI가 아닌 확장자로 만들어집니다. 당신이 직면하고있는 문제는 이모티콘을 단어로 변환하려는 것과 비슷하게 묘사 될 수 있습니다. Emoji 대신 문자를 처리하려고합니다. 두 경우 모두 필요한 것은 동일합니다. 모든 종류의 전화와 모든 해당 단어를 바꿀 모든 이모티콘을 알아야합니다. 다양한 문자 집합과 그 문자로 대체해야하는 의도 된 문자에 대해 동일하게 적용됩니다. 편집 : 컴퓨터의 관점에서 볼 때 동일한 유니 코드 문자이기 때문에 동일한 말을합니다. –

이상한 강하게/굵게 유니 코드를 PHP에서 비 굵게 UTF-8 문자로 변환하는 방법?

답변

관련 문제