내가 공부하고 싶은 텍스트가 있다고 가정 해 봅시다. 문장과 단락의 수는 그대로 유지하는 것이 중요합니다 (문장의 끝, 새로운 단락의 개행 트리거 시작). 먼저 내 텍스트를 토큰 화해야한다고 가정 해 봅시다. 보시다시피, 출력은 단어 이외의 정보를 무시하는 목록입니다. 나는 다음과 같이하려고 할 수 있습니다 :개행과 단락 구조를 유지하면서 토큰 화
>>> s = ['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?']
>>> " ".join(s)
"How 's life ? Are n't you feeling good bro ?"
단락 구조가 이미 없어 졌기 때문에 충분하지 않습니다. NLTK의 토크 나이저를 사용하여 이것을 쉽게 할 수 있습니까? 차라리 첫 번째 해결책으로 다른 도서관에 의지하지 않을 것입니다.