어려운 질문에 사과드립니다. I는 서열의 큰 집합을시퀀스 보정을위한 N-Gram
중 하나에 의해 보정/또는 모양이 자리를 첨가하거나 (절대로 아무것도 제거하지 않음)으로 대체 될 :
- 1, 2, 3 => 1,7 , 4,3
- 4, 5,6 => 4,4,5,6
- -4,7,8,9- => 4,7,8,9,1
- = 4,7 > 4,8
- 4,7,1 => 4,7,2
패딩 된 원본 시퀀스와 샘플 보정으로 시작합니다.
I는 다른 N-g의 주파수를 계산하여 자동 시퀀스 보정 작업을 할 수 있도록하려는보정되는 첫번째 샘플 될 것이다
- 1 => 1
- 2 => 7
- 3 => 3
- 1,2 => 1,7-
- 2,3 => 7,4,3
- 1,2,3 => 1,7,4, 3
이러한 n-grams 수정 빈도를 수집하고 샘플 데이터에 있거나 없을 수도있는 새 입력을 수정하는 가장 좋은 방법을 계산할 방법을 찾고 있습니다.
이것은 SMT과 유사합니다.
2,3 => 7,4,3이 마지막 두 예제에서 2,, 3 => 7,4,3이어야합니까? 또한 null ","항목은 다른 항목과 다른 의미가 있습니까? – Sparr
자세한 정보가 필요합니다. 이러한 수정 사항은 반복적입니까, 필요한 평가 순서가 있습니까? 여러 규칙이 적용될 때 어떻게 처리됩니까? 예를 들어, 1,2 => 1,2,3 AND 2,3 => 2,3,4 - 1,2,3에 적용하면 1,2,3 또는 1,2가 나오고, 3,4 또는 1,2,3,3 또는 1,2,3,3,4 또는 심지어 1,2,3 ..............? – BobMcGee