단락 벡터 모델링에서 문단은 대상 단어를 예측하기위한 문맥 단어와 함께 단락을 메모리 정보로 참조합니다. 왜 단락이 목표 단어를 예측하는 데 유용한 정보인지 알 수 없습니다. 단락에 목표 단어가 포함되어야합니까? 1단락 벡터의 개념이 의미가있는 이유는 무엇입니까?
아무에게도 어떻게 할 수 있습니까? D가 뭐야? 단락 ID도 단락 단락 벡터입니까?
예를 들어 문단 A, B, C 및 단어 a, b, c, d, e, f, g가 있습니다. 단락 B는 abcdefg의 순서입니다. 문서가 A + B + C 이 문서를 교육하고 단어 d를 예측하고 싶습니다. 입력 단락은 무엇입니까? 윈도우 크기가 7 인 경우 입력이 a, b, c, e, f, g의 핫 워드 벡터이어야 함을 알고 있습니다.
답변 해 주셔서 감사합니다. –
단락에 예측하고 싶은 단어가 포함되어 있습니까? –
이 백서의 단락 벡터는 실제로 어떤 단어가 포함되어 있는지 고려하지 않습니다. 방금 n 번째 단락을 가져다가 무작위로 벡터에 할당 한 다음이 벡터를 학습하십시오. 그래서 당신의 경우 3 개의 문단 벡터 A, B, C를 가지게 될 것이고 훈련의 모든 N-gram 표본에 대해 N-gram이 발생한 문단 벡터를 사용할 것입니다. – piko