사용자가 일부 양식을 나타내는 (스캔 한) PDF 파일을 업로드 할 수있는 응용 프로그램에서 작업 중이므로 관심있는 필드 주위에 경계 상자를 그려 그 OCR 된 내용을 구조화 된 텍스트 형식으로 반환합니다. 테두리 상자 그리기가 일종의 끌기이기 때문에 사용자가 요구하는 작업을 줄이는 방법을 생각하고있었습니다. 예를 들어 자동 감지 된 필드 분할을 제공 할 수 있습니다. 이 문제를 연구하기 시작했고 컴퓨터 시각 알고리즘을 기반으로 한 흥미로운 접근법을 발견했습니다. 그러나이 애플리케이션은 앞으로 자주 사용되어 사용자가 테두리 상자를 많이 사용하게 될 것이므로이 데이터 집합을 학습 방법을 적용하는 데 사용하지 않는 것이 거의 낭비처럼 보일 것입니다. 그래서 나는 다른 형태를 많이 찾고 시작하고 그들 대부분이 같은 방식으로 국경으로 구성되어 것으로 나타났습니다 :양식 (이미지 형식)에서 관련 필드를 검색하는 학습 방법
여기에 몇 가지 관찰 : 상자 텍스트 100 % 채워진 보통 조건/면책 조항/등을 나타내는 추출을 요구하지 않음. (주로) 비어있는 상자는 대부분 비 관련 필드를 나타 내기 때문에 요청되지 않습니다. 흥미로운 상자는 위쪽/왼쪽에 레이블이 있고 상자 본문에 일부 내용이있는 것처럼 보입니다.
물론 모든 양식이 위의 테두리와 같이 멋지게 구조화 된 것은 아닙니다. 어떤 것은 필드들 사이에 하나의 분할 경계 (즉, 수평 또는 수직)를 사용하고 때로는 경계가 전혀없는 경우도있다.
우리는 이미지 작업을하기 때문에 객체 인식을 살펴보고 100 가지 형식의 데이터 세트에서 밤새도록 훈련시키는 YOLOv2 (길쌈 신경 네트워크)를 사용해 보았습니다 (이 데이터 세트는 여전히 너무 작고 이후 나는 내 CPU에 대해 훈련을 했으므로 충분히 훈련하지 못했다.) 어쨌든, 나는 모든 훈련 분야에 국경과 일부 내용이 있다는 사실로 인해 테두리가있는 상자를 찾는 데 시스템이 빨리 도움이되기를 바랍니다. 그러나 결과는 지금까지 매우 실망 스러웠다 (평균 손실/오류 = 9.6). 나는 이것에 대해 생각하기 시작했고 사용자가 완벽하게 정밀하게 테두리가있는 특정 필드를 그리는 것을 건너 뛰면 학습 과정에서 신경 네트워크를 혼란스럽게 할 것이라는 것을 깨달았습니다.
내 질문의 나머지 부분은 다음과 같습니다. 여러분은 객체 인식이 여기에 오는 길이라고 생각합니까, 아니면 그러한 형태의 특성을 가진 시스템에 너무 혼란스러운가요? 그렇다면, 예를 들어 일부 필터를 적용하여 텍스트를 "흐리게"만들려고하면 상자가 훨씬 더 비슷하게 보이게됩니다. 또는 문서 당 (관련성이 가장 높은) 상자의 좌표 데이터 집합이 주어지면 대신 적용 할 수있는 더 나은 학습 방법은 무엇입니까? 아마 국경의 존재에 너무 기초를 두지 않을 방법조차?
내가 요구하는 유일한 요구 사항은 사용자가 그려진 경계 상자를 데이터 집합으로 사용하여 시스템을 지속적으로 향상시킬 수 있다는 것입니다.
감사합니다.
특정 헤더를 학습하고 텍스트 조각과 연결하는 것에 대한 훌륭한 통찰력! 이렇게하면 자동 감지 된 상자로 끝나지 않을뿐만 아니라 레이블/머리글이 속한 것인지 예측할 수 있습니다. 나는이 개별 문제에 초점을 맞추고이 게시물을 최신 상태로 유지할 것입니다. 감사! – SND
@SeekAndDestroy 답변으로 표시 ^^ –
여러 접근법을 조사한 결과, 객체 인식이 갈 길이 멀지 않다고 말할 수 있습니다. 대신, 필자는 컴퓨터 시각 알고리즘을 사용하여 선을 사전에 탐지하고 텍스트 블록을 유사하게 검색하는 마지막 언급 된 전략에 부분적으로 기초했습니다. 이 둘을 연결하면 경계 상자와 함께 '레이블'- '텍스트 블록'쌍이 제공됩니다. 나는 사용자가 그린 상자를 훈련 데이터로 통합하는 여러 가지 방법을 연구 중이므로 아직 문제가 완전히 해결되지는 않았지만 게시물이 올바른 방향으로 나를 보내면 답변으로 표시됩니다. – SND