이제 LSTM 기반 NN에 대한 입력 데이터를 준비하려고합니다. 나는 많은 수의 텍스트 문서를 가지고 있으며, 각 문서에 대한 시퀀스 벡터를 만들어 LSTM RNN에 열차 데이터로 공급할 수 있도록하고 싶다.Python의 텍스트에서 시퀀스 벡터 만들기
내 가난한 방법 :
import re
import numpy as np
#raw data
train_docs = ['this is text number one', 'another text that i have']
#put all docs together
train_data = ''
for val in train_docs:
train_data += ' ' + val
tokens = np.unique(re.findall('[a-zа-я0-9]+', train_data.lower()))
voc = {v: k for k, v in dict(enumerate(tokens)).items()}
다음은 "VOC"DICT 각 문서를 대체 brutforce.
이 작업에 도움이되는 라이브러리가 있습니까?
참조 : HTTPS : //github.com/JonathanRaiman/theano_lstm –