2017-04-24 7 views
0

이 같은 텍스트 감안할 때 문장 부호에 의해 분할 토큰을 분리, 내가 생산하기 위해 예를 들어 NLTK의 트윗 토큰 화와 함께 토큰 화 수있어 "위대한 음료, 쇠고기 해시, 커피, 부리 토를."토큰 화,

['Great', 
'drinks', 
',', 
'beef', 
'hash', 
',', 
'coffee', 
',', 
'burritos', 
'.'] 

I [Great drinks, beef hash, coffee, burritos]과 같은 목록을 생성하기 위해 쉼표 앞의 각 부분을 개별적으로 처리하고 싶습니다. 어떻게하면 좋을까요?

있는 단어는

답변

1
import re 
s= "Great drinks , beef hash, coffee, burritos." 
print (re.findall(r"[\w']+", s)) 

'-'(하이픈)

print (re.findall(r"([\w']+(?:\S-\S)?[\w'])+", s)) 
+0

완벽한 - 고맙습니다 – user3058703

0
msg = "Great drinks , beef hash, coffee, burritos." 
msg.translate(str.maketrans(",.", " ")).split() 

작업을 수행합니다.

+0

구두점 문자가 증가하면 너무 길어집니다. – SmartManoj