2017-03-04 5 views
0

내가 공부하고 싶은 텍스트가 있다고 가정 해 봅시다. 문장과 단락의 수는 그대로 유지하는 것이 중요합니다 (문장의 끝, 새로운 단락의 개행 트리거 시작). 먼저 내 텍스트를 토큰 화해야한다고 가정 해 봅시다. 보시다시피, 출력은 단어 이외의 정보를 무시하는 목록입니다. 나는 다음과 같이하려고 할 수 있습니다 :개행과 단락 구조를 유지하면서 토큰 화

>>> s = ['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?'] 
>>> " ".join(s) 
"How 's life ? Are n't you feeling good bro ?" 

단락 구조가 이미 없어 졌기 때문에 충분하지 않습니다. NLTK의 토크 나이저를 사용하여 이것을 쉽게 할 수 있습니까? 차라리 첫 번째 해결책으로 다른 도서관에 의지하지 않을 것입니다.

답변

0

토큰 화자을 변경하려고합니다. nltk에 포함 된 몇 가지 다른 것들이 있습니다. 줄 바꿈의 중요성을 유지하려면 줄 단위의 토큰 화기 중 하나를 시도하거나 줄 바꿈을 직접 나누고 한 번에 하나씩 줄을 입력하는 것을 고려하십시오. 이렇게하면 어떻게 든 새 라인을 다시 데이터에 혼합 할 수 있습니다. (예를 들어, 각 줄 바꿈에서 토큰 화 된 출력의 len()을 추적 할 수 있습니다.)