2016-07-11 6 views
1

OCR 프로그램은 종종 대문자 O를 0으로 또는 그 반대로 잘못 인식합니다. 예를 들어, 그들은 0ver 또는 we11과 같이 Over를 인식 할 수 있습니다. Hunspell 접미사 파일을 변경하여 단어 수를 허용하는 방법은 무엇입니까?

는 내가 접사 파일에

REP 0 O 
REP 1 l 

를 추가하려고했으나 번호가 분명히 단어 경계로 간주되기 때문에 그것은 작동하지 않았다.

는 (나는 hunspell man page을 살펴했지만, 나는 단어에 숫자를 허용하도록 변경해야하는 다양한 설정을 알아낼 수 없습니다.) 맨 페이지에서

답변

1

:

REP 무엇 replacement 이 테이블은 먼저 시도 할 수정 사항을 지정합니다. 첫 번째 REP는이 테이블의 헤더 인 이고 하나 이상의 REP 데이터 라인은 입니다. 이 표를 사용하면 잘못된 양식 이 올바른 양식의 글자 1 자 이상 다른 경우 Hunspell에서 일반적인 맞춤법 오류에 대해 양식을 제안 할 수 있습니다. 검색 문자열은 정규 표현식 경계 부호 (^ 및 $)를 지원합니다.

  REP 5 
      REP f ph 
      REP ph f 
      REP tion$ shun 
      REP ^cooccurr co-occurr 
      REP ^alot$ a_lot 

당신이 첫 번째 줄, 교체의 REP + 번호를 추가 했 예를 맞춤법이 틀린 자음을 처리 할 수있는 가능한 영어 대체 테이블의 정의는?

+0

답변 해 주셔서 감사합니다. 다음 항목 수와 다른 모든 REP 문이있는 머리글을 추가했습니다. 작동하지 않는 것은 다음과 같습니다 : 'REP 0 O' –

+0

hunspell은 REP 뒤에 정수가 오는 것을보고 교체 대신 헤더로 해석 할 가능성이 있습니까? 이 경우 끝에있는 제로 교체를 놓는 것이 효과적 일 수 있습니다. 그렇지 않으면 Hunspell 구현을 감독하는 것이 두렵습니다. –

+0

아마도 맞을 것입니다. Hunspell 파서는 REP 문에서 숫자로 혼동을 일으킬 수 있습니다. –