그냥 물을 테스트하고 있습니다 ... 문서를 분류하는 일반적인 방법은 bag of words이지만 문서가 전자적으로, 본래 또는 의도적으로 수행되었음을 의미합니다. 표준 문서의 경우 정부 양식을 생각해보십시오. 이미지를 약간 조작하고 표준화 된 모양으로 변환하고 단어가있는 알파 레이어를 만들 수 있는지 궁금합니다. 어쩌면 실제 단어가 아니라 모양이 아닐 수도 있습니다. 그런 다음 일부 기계 학습을 사용하여 알파 레이어를 비교하여 일치하는지 확인하십시오. 나는 각 문서가 지문을 가지고있는 것처럼 거의 느낀다 ... 시각적으로.이미지 기반 문서 분류
아이디어는 폴더에 문서의 100 버전을 덤프하고, 통합하기위한 처리를 한 다음 알고리즘을 실행하여 문서의 지문을 찾습니다.
다시 말해서 나는 대화를 시작하고 있습니다. 이 생각이 물을 가집니까? 벌써 끝났어? 귀하의 답변을 기다리고 있습니다!
귀하의 질문은 기계 학습에 초점을 맞추고 있으며 프로그래밍과 직접적인 관련이없는 것으로 보입니다. [Cross Validated] (https://stats.stackexchange.com) 또는 [Data Science SE] (https://datascience.stackexchange.com)가 이러한 질문에 더 적합 할 수 있습니다. –