2017-10-21 15 views
0

Keras의 reuters 데이터 세트에서 제공하는 데이터 세트를 이해할 수없는 것 같습니다.Keras의 reuters 데이터 세트에서 뉴스 텍스트 재구성

세트과 같이로드 :

(x_train, y_train), (x_test, y_test) = reuters.load_data() 

를 지금까지 내가있는 "X"배열이 뉴스 기사에서 워드 인덱스의 시퀀스 (목록)의 배열과 "Y"배열 인 이해의 배열 인으로 이러한 시퀀스의 주제

하지만 실제 단어로 제공된 사전과 시퀀스 중 하나의 단어 인덱스를 번역 할 때 :

wordDict = {y:x for x,y in reuters.get_word_index().items()} 
for index in x_train[0]: 
    print (wordDict.get(index)) 

순서는 아무 의미가없는 것 같다. 시퀀스를 원래 뉴스로 되돌리려면 어떻게해야합니까?

편집 : 비슷한 스레드를 찾았습니다. here. 데이터 집합의 단어 색인과 일치하지 않는 사전의 색인에 문제가있는 것처럼 보입니다. 그러나 데이터를 다시 다운로드한다고해서 문제가 해결되는 것은 아닙니다.

+0

https://github.com/fchollet/deep-learning-with-python-notebooks/blob/master/3.6-classifying-newswires.ipynb의 셀 6 참조 –

답변

1

load_data 인수 "index_from"의 기본값은 실제 단어의 색인을> 3으로 만듭니다. wordDict.get(index - 3)을 사용하여 텍스트를 재구성 할 수 있습니다.