기계 번역에서 시퀀스 - 시퀀스 모델은 매우 대중화되었습니다. 모델 세트의 앙상블 또는 평균화와 같은 성능 향상을 위해 몇 가지 트릭을 사용합니다. 여기서 논리는 오류가 "평균화"된다는 것입니다.앙상블과 평균화 모델의 차이점은 무엇입니까?
평균 모델은 단순히 X 모델의 매개 변수 평균을 취한 다음 테스트 데이터를 디코딩하는 데 사용할 수있는 단일 모델을 만듭니다. Ensembling 그러나 각 모델의 평균을 출력합니다. 평균 모델은 테스트 데이터에서 한 번만 실행되는 반면 X 모델은 출력을 제공해야하므로 리소스 집약적입니다.
여기 정확히 다른 점은 무엇입니까? 출력은 어떻게 다릅니 까? 내 테스트에서 두 가지 방법 모두베이스 라인 점수보다 작고 비슷한 개선을 보였습니다. 사람들이 왜 평범한 사람들 일지 궁금해하게 만듭니다. 그러나 모든 Neural Machine Translation 논문에서 사람들은 평균에 대해서가 아니라 앙상블에 관해 이야기합니다. 왜 이런거야? 평균화에 관한 논문이 있습니까 (특히 seq2seq 및 기계 번역 관련 논문)?
도움을 주시면 대단히 감사하겠습니다.