다음 입력에서 출력까지의 매핑을 배우기 위해 뉴럴 네트워크 모델을 학습한다고 가정합니다. 여기서 출력은 Name Entity (NE)입니다.NLP - 문장 토큰의 '시작'과 '끝'선택
입력 : 유럽 연합 (EU)은 독일 양고기에 불매 운동을하는 영국의 전화를 거부합니다.
출력 : ORG MISC O O O O O O MISC
슬라이딩 윈도우가 콘텍스트 정보를 수집하기 위해 생성되고, 그 결과는 model_input로 훈련 모델로 공급된다. 슬라이딩 윈도우는 다음과 같은 결과를 생성
[['<s>', '<s>', 'EU', 'rejects', 'German'],\
['<s>', 'EU', 'rejects', 'German', 'call'],\
['EU', 'rejects', 'German', 'call', 'to'],\
['rejects', 'German', 'call', 'to', 'boycott'],\
['German', 'call', 'to', 'boycott', 'British'],\
['call', 'to', 'boycott', 'British', 'lamb'],\
['to', 'boycott', 'British', 'lamb', '.'],\
['boycott', 'British', 'lamb', '.', '</s>'],\
['British', 'lamb', '.', '</s>', '</s>']]
<s>
토큰 문장의 시작을 나타내고, </s>
는 문장 토큰의 단부이고, 각 슬라이딩 윈도우가 출력 한 NE에 대응한다.
이러한 토큰을 처리하기 위해 단어를 벡터 (예 : 글러브)로 변환하기 위해 사전 훈련 된 포함 모델이 사용되지만이 사전 훈련 된 모델은 <s>
및 </s>
과 같은 토큰을 포함하지 않습니다. 랜덤 초기화 <s>
및 </s>
같은 좋은 결과는 다른 임의의 결과의 스케일이 다른 글러브 삽입과 일치하지 않을 수 있기 때문에 바람직하지 않습니다.
질문 : 무엇 <s>
및 </s>
이유에 대한 묻어을 설정하는 방법은?