0

텍스트 코퍼스에는 각 문서가 대략 80 줄 정도 인 50 개의 텍스트 문서가 있습니다. 나는 텐서 플로우의 입력으로 내 코퍼스를 먹이고 싶지만 시스템이 각 문서를 읽을 때 각 문서를 배치하고 싶다. 실제로 Tf.Data를 사용하여 원하는 이미지에 사용되는 TfRecord와 동일하게 각 문서를 순차적으로 읽으려는 내 코퍼스에 배치합니다.텍스트 문서를 텐서 플로우 형식의 tf.data로 순차적으로 변환합니다.

이 문제를 어떻게 해결할 수 있습니까?

답변

1

당신은 문서의 행을 포함하는 TextLineDataset 만들 수 있습니다 : 당신이 데이터 세트를 생성 한 후

dataset = tf.data.TextLineDataset(['doc1.txt', 'doc2.txt', ...]) 

, 당신은 batch 방법과 Dataset 클래스의 다른 방법을 사용하여 일괄 적으로 문자열을 분할 할 수 있습니다.