2014-07-23 4 views
0

빛나는 R /에 미친 문자를 제거 : R 내내가 같은 같은 형식의 긴 목록을 가지고

group1 » group2 » group3 

, x은 위와 같이 구성 벡터가 어디가 gsub('»', '-', x)를 사용할 수 있습니다.

그러나이 기능을 반짝이는 앱에로드 할 때이 기능을 사용하려고 할 때 오류가 발생합니다. 나는 gsub, chartr 및 다른 것들을 사용하는 여러 방법을 시도했다.

을 사용하면 Â 문자도 캡처되지 않습니다.

제안 사항?

+0

영숫자 * 문자 *를 유지 하시겠습니까? – rawr

+0

콜론과 세미콜론이 사용되는 경우가 있습니다. 그래서 영숫자와 몇개의 특수 문자 – maloneypatr

+0

'gsub ("[^ A-Za-z0-9]", "-", x)'를 해 보셨습니까? –

답변

0

group1 » group2 » group3UTF-8 인코딩 문자열이고 Read or Set the Declared Encodings for a Character VectorRead text as UTF-8 encoding에 설명한 바와 같이 R 프로그램 라틴 1 UTF-8에서 변환을 문자열을 읽는 경우에 따라서 부호화 최상이다.

»

16 진수 값 C2 BB와 2 바이트 코드 페이지 Windows-1252 또는 ISO 8859-1 (라틴-1)과 (잘못된)을 해석하고 표시함으로써 right-pointing double angle quotation mark을 인코딩 UTF-8이다.

gsub("\\xC2?\\xBB", "-", x)은 UTF-8로 인코딩 된 문자열 또는 단일 바이트로 인코딩 된 문자열 (라틴어 1 또는 Windows 1252)을 모두 가리키는 악의문을 찾아서 하이픈 문자로 바꿀 수 있습니다.