나는 영어 포함 텔루구 어, 여기에 지금까지파이썬 정규식 영어 및 텔루구어/데바 나가리 단어 모두
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
sentence="hello world యూనియన్ యూనియన్"
sentence=sentence.decode('utf-8')
for m in re.finditer(ur'(\w|\’\w|\'\w)+', sentence, re.UNICODE):
start, end = m.span()
word = m.group().encode('utf-8')
print start, end, word
내가 '결과 내 코드 언어의 혼합에서 단어를 얻기에 도움이 필요 기대 m은
0 5 hello
6 11 world
11 17 యూనియన్
17 23 యూనియన్
하지만 내가 얻을 결과는
0 5 hello
6 11 world
12 13 య
14 15 న
16 18 యన
20 21 య
22 23 న
24 26 యన
코드가 랭의 모든 문자를 분할 원하고 시작과 끝 길이를 독립적으로 제공하십시오. 문자 대신 단어로 위의 형식으로 결과를 얻을 수있는 방법이 있습니까
많은 도움을 주시면 코드에서 도움이됩니다. –