1
단어 모델 가방에 사용자 정의 ngram 벡터 라이저를 구축 중입니다. 나는 질투합니다 - 짧은 텍스트를 벡터화하는 동안 코퍼스 어휘에없는 새로운 토큰을 발견하면 어떻게해야합니까? 그것은 그냥 건너 뛰거나 무엇을해야합니까?ngram 벡터화 - 코퍼스에없는 새로운 토큰을 발견하면 어떻게해야합니까?
단어 모델 가방에 사용자 정의 ngram 벡터 라이저를 구축 중입니다. 나는 질투합니다 - 짧은 텍스트를 벡터화하는 동안 코퍼스 어휘에없는 새로운 토큰을 발견하면 어떻게해야합니까? 그것은 그냥 건너 뛰거나 무엇을해야합니까?ngram 벡터화 - 코퍼스에없는 새로운 토큰을 발견하면 어떻게해야합니까?
건너 뛸 수 있습니다. 또는 알려지지 않은 단어에 대한 특수 토큰을 어휘에 추가 할 수 있습니다 (예 : 이전에는 보이지 않는 단어는 "UNK"
으로 바뀌었고 다른 단어와 똑같은 단어를 셀 수 있습니다. 또한 훈련 데이터에 UNK
이없는 문제를 처리하려면 컴퓨터에서 한 번만 발생하는 모든 단어를 UNK
으로 바꿀 수 있습니다.