0
나는이 텍스트를 가지고 있지만 '나는 이것을 가지고있다. 질문? ' 내가정규 표현식을 사용하여 텍스트를 토큰으로 분할 할 때 특별한 기호를 유지
['I','love', 'this', 'but', 'I', 'have', 'a', 'question', 'to']
납니다이 정규식을 사용하는 경우 현재 나는이 정규식을 쓴 사람이 아니에요 내가 정규식에 대해 아무것도 몰라
token_pattern = re.compile(r"(?u)\b\w+\b")
token_pattern.findall(text)
를 사용하여 (예에서 이해하려고 노력하지만 단지 준 최대 노력) 지금은이 문제와 느낌표를 유지하고도 고유 한 토큰에 분할 할있는 방법이 정규식을 변경해야하므로이 목록
['I','love', 'this', 'but', 'I', 'have', 'a', '!', 'question', 'to', '?']
하나를 돌아갑니다 내가 그것을 어떻게 할 수 있는지에 대한 제안.