ansi 대신 UTF 또는 HTML 엔티티 문자 인코딩을 사용하는 이유 중 하나입니다. UTF를 사용하면 이러한 문자 (및 다른 언어의 문자)를 저장하고 표시 할 수 있으며, 사용자가 이러한 문자를 해당 언어/문자 집합으로 입력 할 때 검색을 처리합니다 (동일한 문자로만 작성된 것과 일치 함).
다른 대안으로는 사람들이 사용하기로 선택한 모든 홀수 문자 세트에 대해 "변환"을 작성하는 것입니다. 여전히 이러한 전환이 가능합니다. 시간 가치가 있는지 여부를 결정해야합니다.
제출하신 문자를 산 세리프 수학 굵게 문자라고합니다. 목록 here at w3.org을 찾을 수 있습니다. 뿐만 아니라 표준 (기울어 진, 기울어 진 대담한 변형)이 있습니다 (해당 페이지 상단의 이전 및 다음 링크 사용).
대문자로 변환하는 문자를 소문자로 바꾸는 것과는 달리 (십진수 값에 32를 더하거나 chr(ord(x)+32)
) 십진수는 설정되어 있지 않습니다. 모든 문자를 수학용 굵게에서 ANSI는 각 문자 그룹에 해당합니다. 마찬가지로 ord()와 chr()도 이러한 문자에는 사용할 수 없습니다.
예 :에게 올바른 소문자 줄 것이다 120,205 감산 따라서 = 120,211
65 - - A는 65 120,276이고, = 120,205
97 120,276이다
이 120,302이며, A는 97 120,302 인 그러나, 같은 것은 효과가 없을 것입니다. 즉, 캐릭터가 어떤 캐릭터 세트 (수학적 볼드, 기울어 진 수학 등)인지 결정하고, 그것이 속한 서브 세트 (a-z, A-Z, 0-9)를 식별 한 다음, 계산 된 해당 오프셋을 사용하여이를 수정해야합니다. 그렇게하기 위해서는 지원되는 변환 문자셋 중 하나에 맞는 문자를 모든 트윗의 모든 문자를 확인한 다음 해당 문자로 변환해야합니다.
Mathematical Bold 만 사용하는 트윗이 많은 경우 유용 할 수 있지만 모든 종류의 잠재적 인 문자를 포함 할 수있는 큰 트윗 세트를 가져 오는 경우 많은 수의 작업.
가치가 있다고 생각되는 경우 가장 먼저해야 할 일은 변환해야하는지 여부와 상관없이 API에서 수신하는 원시 문자 인코딩을 확인한 다음 그 사이에 매핑할지 여부를 결정하는 것입니다. 문자 집합을 사용하는 문자 세트, 부분 집합에 대한 값 범위 사용 또는 다른 방법. 또한 해당 문자를 스캔하는 방법을 결정해야합니다.
전체적으로 귀하의 질문에 대한 대답은 전환이 가능하다는 것이지만 귀하의 상황과 세부 사항은 그것이 가치있는 것인지 그리고 귀하가 성취하는 방법을 결정할 것입니다. 그것은 당신을 위해 쓰여질 수있는 것이 아닙니다.
어떤 데이터베이스가 있습니까? 테이블 구조 란 무엇이며, 특히 사용중인 문자 집합/데이터 정렬은 무엇입니까? 이것은 문자 세트 문제처럼 보입니다. 그것은 당신이 당신의 PHP 클라이언트 스크립트 내에서 UTF-8을 사용해야하고 테이블의 필드에 저장해야하는 것으로 보입니다. 이 질문을보십시오 : http://stackoverflow.com/questions/8274972/official-encoding-used-by-twitter-streaming-api-is-it-utf-8 – gview
예를 들면 var_dump (ord (" ')) ; // 240을 반환합니다. var_dump (ord ('s')); // return 115 –
이것은 유니 코드 문자로, 특히 'U + 1D400'에서 'U + 1D7FF'까지의 'MATHEMATICAL SANS-SERIF BOLD SMALL'입니다. –