2017-12-08 30 views
0

죄송합니다. 이전에이 질문에 이미 문의했으나 답을 찾을 수 없었습니다.2 열 텍스트의 Google Vision 복합 OCR 실행

그래서 상점 영수증을 스캔하기 위해 C# OCR 프로그램을 만들고 있습니다. Vision OCR DocumentTextDetection 자체는 텍스트와 함께 매우 정확하게 작동하지만 다른 문제가 있습니다.

영수증 (아래 이미지에 나와있는 템플릿)을 스캔하면 Vision OCR이 이상하게 2 열 밀도의 텍스트로 작동합니다.

enter image description here

응답은 일반적으로 두 번째에서 첫 번째 열, 또는 가격에서 제품 이름 중 충전 한 칼럼 문자열입니다 : 예를 들어,이 영수증 템플릿 형식을 가지고있다.

그래서 보통 응답의 예 :

영수증 제품 1 제품 2 제품 3 9.99 product4입니다 9.99 12.10 A 본 응답은 나를 제대로 각 항목을 연결할 수 없습니다 Product5

해당 가격.

이미지 편집 프로그램 (예 : Photoshop)을 사용하여 제품과 가격 열 사이의 거리를 줄이면 제대로 작동하고 영수증을 한 행씩 스캔하므로 어느 가격이 어떤 제품에 속하는지 쉽게 식별 할 수 있습니다.

제 질문은 새 이미지를 작성하여 프로그래밍 방식으로 두 열 사이의 거리를 조정할 수있는 힌트를 주시겠습니까? 또는 영수증 이미지를 2 개의 이미지, 1 열당 1 이미지 및 OCR 별도로 구분하는 것이 더 좋은 아이디어일까요? 하지만 솔직히 열 공간을 식별하여 새 이미지로 잘라낼 수있는 방법에 대해 알지 못해서 이에 대한 제안이 있습니까?

답변

0

먼저 이미지를 이진화 한 다음 "morphology - erosion"과 같은 일부 이미지 처리 알고리즘을 사용하여 원본 이미지를 두 열 사이의 간격에 따라 반으로 분할하기 위해 사전 처리합니다. 방법? 검은 색 영역에서 픽셀 값이 가장 낮기 때문에 원본을 가로 방향으로 스캔 할 때 드롭 값이 있음을 알 수 있습니다. 마지막으로 OCR을 사용하여 번호를 검색 할 수 있습니다.

enter image description here