2017-09-19 6 views
1

사람들이 보통 기계 번역에서 구두점을 어떻게 다루는 지 궁금해.기계 번역에서 구두점을 다루는 방법

예를 들어, 언어 A에서 우리가있을 수 있습니다 B로 : 나는 우리가 언어 B에서 쉼표 처리 어떻게 궁금

A: a b c d e f g 
B: x y z, u v w 

? seq2seq 모델을 사용하고 있다면 간단히 제거하거나 아니면 다른 단어를 처리 할 때와 같은 방법으로 쉼표를 처리해야합니까?

아무 것도 놓치지 않으면 어떤 종이도 그것에 대해 명시 적으로 이야기하지 않는다고 생각합니다.

답변

0

Seq2Seq의 좋은 응용 프로그램은 기계 번역입니다.

영어 -> 독일어의 경우 추가 쉼표가 필요한 독일어 문장이 표시됩니다 (예 :

EN

: 대령은 이렇게 얘기했기 때문에 나는 그를 쐈다.

DE : Ich habe auf ihn geschossen, weil es der Oberst mir befohlen hatte.

weil (이전의 문법)은 쉼표가 문법적이어야하기 때문에 첫 번째 하위 절이 자주 자동으로 학습됩니다.

사전에 추가 사전 처리가 필요하지 않습니다.

+0

답장을 보내 주셔서 감사합니다. @alvas! 후속 질문에 쉼표 (및 다른 구두점)를 나타 내기 위해 삽입이 필요합니까? –

+0

생각을위한 음식 : 구두점은 언어의 단어만큼 중요합니까? 대부분의 기계 학습 모델은 어떤 종류의 토큰이 문장에 존재하는지 구분하지 않습니다. 문장이 토큰 화되는 한, 공백으로 분리 된 모든 단어/구두점/그림 문자/바이트 코드는 토큰으로 간주됩니다 (P – alvas

+0

). 따라서 귀하의 의견을 정확하게 이해하면 Google 모델에서 단어와 구두점을 구분하지 않습니다. 정규 단어에 적용하는 모든 기술은 구두점에도 똑같이 적용될 수 있습니다. 그 이해가 맞습니까? –