1
사람들이 보통 기계 번역에서 구두점을 어떻게 다루는 지 궁금해.기계 번역에서 구두점을 다루는 방법
예를 들어, 언어 A에서 우리가있을 수 있습니다 B로 : 나는 우리가 언어 B에서 쉼표 처리 어떻게 궁금
A: a b c d e f g
B: x y z, u v w
? seq2seq 모델을 사용하고 있다면 간단히 제거하거나 아니면 다른 단어를 처리 할 때와 같은 방법으로 쉼표를 처리해야합니까?
아무 것도 놓치지 않으면 어떤 종이도 그것에 대해 명시 적으로 이야기하지 않는다고 생각합니다.
답장을 보내 주셔서 감사합니다. @alvas! 후속 질문에 쉼표 (및 다른 구두점)를 나타 내기 위해 삽입이 필요합니까? –
생각을위한 음식 : 구두점은 언어의 단어만큼 중요합니까? 대부분의 기계 학습 모델은 어떤 종류의 토큰이 문장에 존재하는지 구분하지 않습니다. 문장이 토큰 화되는 한, 공백으로 분리 된 모든 단어/구두점/그림 문자/바이트 코드는 토큰으로 간주됩니다 (P – alvas
). 따라서 귀하의 의견을 정확하게 이해하면 Google 모델에서 단어와 구두점을 구분하지 않습니다. 정규 단어에 적용하는 모든 기술은 구두점에도 똑같이 적용될 수 있습니다. 그 이해가 맞습니까? –