-2

그냥 물을 테스트하고 있습니다 ... 문서를 분류하는 일반적인 방법은 bag of words이지만 문서가 전자적으로, 본래 또는 의도적으로 수행되었음을 의미합니다. 표준 문서의 경우 정부 양식을 생각해보십시오. 이미지를 약간 조작하고 표준화 된 모양으로 변환하고 단어가있는 알파 레이어를 만들 수 있는지 궁금합니다. 어쩌면 실제 단어가 아니라 모양이 아닐 수도 있습니다. 그런 다음 일부 기계 학습을 사용하여 알파 레이어를 비교하여 일치하는지 확인하십시오. 나는 각 문서가 지문을 가지고있는 것처럼 거의 느낀다 ... 시각적으로.이미지 기반 문서 분류

아이디어는 폴더에 문서의 100 버전을 덤프하고, 통합하기위한 처리를 한 다음 알고리즘을 실행하여 문서의 지문을 찾습니다.

다시 말해서 나는 대화를 시작하고 있습니다. 이 생각이 물을 가집니까? 벌써 끝났어? 귀하의 답변을 기다리고 있습니다!

+0

귀하의 질문은 기계 학습에 초점을 맞추고 있으며 프로그래밍과 직접적인 관련이없는 것으로 보입니다. [Cross Validated] (https://stats.stackexchange.com) 또는 [Data Science SE] (https://datascience.stackexchange.com)가 이러한 질문에 더 적합 할 수 있습니다. –

답변

-1

전적으로 이것이 흥미로운 접근이라고 생각합니다. 특히 텍스트가 완전히 읽을 수없는 문서 (나쁜 스캔, 사진 복사, 전화 사진 등). 적절한 수의 샘플을 사용하면 Deep Learning 모델을 사용하고 모양을 통해 해당 문서를 분류 할 수 있어야한다고 생각합니다.

질문 답변 : 예, CNN here을 사용하여 (내 의견으로는 아주 좋았습니다) 완료되었습니다. 저기 아마 다른 서류가 있지만 나는 이것이 당신이 무엇을 요구했는지에 맞다고 생각합니까?

평화!