2009-06-19 2 views
0

어려운 질문에 사과드립니다. I는 서열의 큰 집합을시퀀스 보정을위한 N-Gram

중 하나에 의해 보정/또는 모양이 자리를 첨가하거나 (절대로 아무것도 제거하지 않음)으로 대체 될 :

  • 1, 2, 3 => 1,7 , 4,3
  • 4, 5,6 => 4,4,5,6
  • -4,7,8,9- => 4,7,8,9,1
  • = 4,7 > 4,8
  • 4,7,1 => 4,7,2

패딩 된 원본 시퀀스와 샘플 보정으로 시작합니다.

I는 다른 N-g의 주파수를 계산하여 자동 시퀀스 보정 작업을 할 수 있도록하려는

보정되는 첫번째 샘플 될 것이다

  • 1 => 1
  • 2 => 7
  • 3 => 3
  • 1,2 => 1,7-
  • 2,3 => 7,4,3
  • 1,2,3 => 1,7,4, 3

이러한 n-grams 수정 빈도를 수집하고 샘플 데이터에 있거나 없을 수도있는 새 입력을 수정하는 가장 좋은 방법을 계산할 방법을 찾고 있습니다.

이것은 SMT과 유사합니다.

+0

2,3 => 7,4,3이 마지막 두 예제에서 2,, 3 => 7,4,3이어야합니까? 또한 null ","항목은 다른 항목과 다른 의미가 있습니까? – Sparr

+0

자세한 정보가 필요합니다. 이러한 수정 사항은 반복적입니까, 필요한 평가 순서가 있습니까? 여러 규칙이 적용될 때 어떻게 처리됩니까? 예를 들어, 1,2 => 1,2,3 AND 2,3 => 2,3,4 - 1,2,3에 적용하면 1,2,3 또는 1,2가 나오고, 3,4 또는 1,2,3,3 또는 1,2,3,3,4 또는 심지어 1,2,3 ..............? – BobMcGee

답변

1

대체 교체의 길이 및 발생 횟수에 따라 알려진 대체를 점수로 지정하십시오. Naives, 나는이 점수를 길이의 제곱에 비례하도록 제안 할 것입니다 (더 긴 일치는 생각할 수있는 대부분의 시나리오에서 더 길지요) 그리고 발생 수의 제곱근과 같이, 16 번 빈번하게 발생하는 2 개 항목으로 구성됩니다. 이것은 실제 상황에 따라 조정해야합니다.

길이 M의 시퀀스가 ​​주어지면 N = M * (M + 1)/2 인 길이가 1부터 M까지 N 개의 하위 문자열이 있으므로 문자열이 합리적으로 짧으면 모든 부분 문자열과 반복에 대해 반복 할 수 있습니다. 가능한 대체품. 이러한 부분 문자열에서 전체 문자열을 작성하는 방법의 수 또한 M^2에 비례한다고 생각합니다.

원본 문자열을 하위 문자열로 구성 할 수있는 경우 각 하위 문자열에 대한 최상 (최고 점수) 대체 점수를 합산합니다.

총점이 가장 높은 구성은 (아마도 프로세스에 대한 내 가정하에) "최상의"교체 후 결과가됩니다.