정규식을 통해 단어 문자열을 단어 목록으로 분할하려고합니다. 나는 여전히 정규 표현식을 가진 초보자이다.구두점을 포함하여 구두점을 포함한 문자열 나누기
저는 nltk.regex_tokenize를 사용하고 있습니다. 결과는 가까운 곳에 있지만, 원하는 것은 아닙니다.
이>>> import re, codecs, nltk
>>> sentence = "détesté Rochard ! m'étais à... 'C'est hyper-cool.' :) :P"
>>> pattern = r"""(?x)
#words with internal hyphens
| \w+(-\w+)*
#ellipsis
| \.\.\.
#other punctuation tokens
| [][.,;!?"'():-_`]
"""
>>> nltk.regexp_tokenize(sentence.decode("utf8"), pattern)
[u'd\xe9test\xe9', u'Rochard', u'!', u'm', u"'", u'\xe9tais', u'\xe0', u'qu', u"'", u'on', u'...', u"'", u'C', u"'", u'est', u'hyper-cool', u'.', u"'", u':', u')', u':', u'P']
나는 다음과 같은 출력을 가지고 싶다 :
[u'd\xe9test\xe9', u'Rochard', u'!', u"m'", u'\xe9tais', u'\xe0', u"qu'", u'on', u'...', u"'", u"C'", u'est', u'hyper-cool', u'.', u"'", u':)', u':P']
나는 "이모티콘"에 대한 해결 방법을, 그래서 내가 '무엇을
이
내가 지금까지 무엇을 가지고 가장 중요한 것은 따옴표입니다.