2017-01-01 6 views
0

나는이 텍스트를 가지고 있지만 '나는 이것을 가지고있다. 질문? ' 내가정규 표현식을 사용하여 텍스트를 토큰으로 분할 할 때 특별한 기호를 유지

['I','love', 'this', 'but', 'I', 'have', 'a', 'question', 'to'] 

납니다이 정규식을 사용하는 경우 현재 나는이 정규식을 쓴 사람이 아니에요 내가 정규식에 대해 아무것도 몰라

token_pattern = re.compile(r"(?u)\b\w+\b") 
token_pattern.findall(text) 

를 사용하여 (예에서 이해하려고 노력하지만 단지 준 최대 노력) 지금은이 문제와 느낌표를 유지하고도 고유 한 토큰에 분할 할있는 방법이 정규식을 변경해야하므로이 목록

['I','love', 'this', 'but', 'I', 'have', 'a', '!', 'question', 'to', '?'] 

하나를 돌아갑니다 내가 그것을 어떻게 할 수 있는지에 대한 제안.

답변

1

이 시도 :

token_pattern = re.compile(r"(?u)[^\w ]|\b\w+\b") 
token_pattern.findall(text) 

그것은 하나의 일치로 모든 영숫자가 아닌 문자와 일치,도.

당신은 정말에만 질문을 필요 느낌표는

token_pattern = re.compile(r"(?u)[!?]|\b\w+\b") 
token_pattern.findall(text) 
에 정규식을 변경할 수 있습니다 표시하는 경우