2017-12-13 10 views
0

나는 논문을 읽고있다.부정적인 방법은 gensim에서 모델 성능에 영향을 줍니까?

단어와 구문의 분산 된 표현과 그 구성 성.

매우 재미 있지만 매개 변수 '음수'와 최종 실적 사이의 관계가 궁금합니다. 나는 개인적으로 최종 성과가 어떤 가치까지 음의 증가로 나아질 수 있다고 생각합니다. 우리가 비교를 위해 사용하는 부정적인 표본이 많을수록 더 나은 결과를 얻을 수 있습니다. 물론 성능은 어느 시점까지 나아지지 않을 것입니다. 내가 맞습니까?

답변

0

더 많은 부정적인 예는 더 많은 모델 조정이 발생하고 있으며 각 'target'단어는 training-example입니다. 따라서 더 많은 작업이 끝나면 그럴듯한이라는 모델이 일부 용도로 다소 개선 될 것입니다.

그러나 이러한 추가 계산에는 더 많은 교육 시간이 필요하므로 해당 매개 변수를 높이는 값은 다른 선택에 비해 비중을 차지할 수 있으며 따라서 교육 비용으로 개선 할 수 있습니다. 예를 들어, window 또는 코퍼스에 대한 반복 학습 횟수를 늘리면 시간이 지남에 따라 모델이 개선 될 수 있습니다.

흥미롭게도 부정적인 예는 대부분의 단어의 좌표 위치를 바이어스하는 경향이 있습니다. 즉, 벡터의 구름이 원점에 집중되지 않습니다. 최근의 논문 중 적어도 하나는이 편향을 제거하는 최종 단계를 제안했다. 최종 좌표를 변환하여 원점에서 전역 평균을 복원하는 것은 일부 업무에서 단어 벡터의 유용성을 향상시킬 수있다.

또한 Word2Vec의 원본 문서는 큰 코퍼스에서는 부정적인 예제가 충분하거나 최적 일 수 없다고 기록합니다. 'Distributed Representations of Words and Phrases and their Compositionality'의 섹션 2.2는 "우리의 실험은 5-20 범위의 k 값은 작은 훈련 데이터 세트에 유용하지만 큰 데이터 세트의 경우 k는 2-5 크기로 작을 수 있음을 나타냅니다." (큰 음표에서 하나의 부정적인 예를 통해 받아 들일만한 결과를 보았습니다.)

다른 negative 값을 실험 해 볼 가치가 있으며 더 많은 예제가 도움이된다고 생각할만한 이유가 있지만 자동으로 생성되지는 않습니다 "더 많다"는 사례, 특히 큰 코퍼스에서는 부정적인 사례가 적거나 충분하지 않을 수 있습니다.