저는 디지털 인류 응용 프로그램을 가지고 있는데, 여기에는 디지털화 된 역사 문서가 많이 있으며, 학생들은 텍스트를 전사합니다. 여기에 스키마가 있습니다 ...디지털 인문학 표현에서 읽을 수없는 데이터를 나타내는 적절한 문자열은 무엇입니까?
create_table "documents", force: true do |t|
t.string "document_name"
t.date "date_filed"
t.string "grantor"
t.string "grantee"
t.string "description"
t.string "document_file_name"
t.string "document_content_type"
t.integer "document_file_size"
end
create_table "transcriptions", force: true do |t|
t.text "content"
t.integer "user_id"
t.integer "document_id"
end
create_table "users", force: true do |t|
t.string "email"
t.string "password_digest"
t.string "role"
end
앱은 꽤 간단합니다. S3에 이미지를 저장하기 위해 클립을 사용하고 있습니다. 학생들은 텍스트 필드가 될 '필사본'을 만들 것입니다. 그런 다음 텍스트를 검색 가능하게 만들 것입니다.
읽을 수없는 텍스트가 많은 오래된 문서입니다. 프로그래밍 방식으로 나중에 식별 할 수 있기를 바라면서 사용자가 읽을 수없는 단어를 나타낼 수있는 방법을 원합니다. 하나의 유스 케이스는 다른 사람 (원본 필사자가 아닌)이 필사본을 볼 때 읽을 수없는 단어에 대한 제안 (또는 편집)을 할 수있는 경우 일 수 있습니다.
예를 들어 사용자는 문서/이미지에서 "잭 잭 참조"라는 문장을 볼 수 있습니다. 따라서 텍스트 영역에서 단어를 해석 할 수 없다면 "See Jack ---"을 입력 할 수 있습니다. 또는 이이라고 생각하면 단어가 무엇인지 알지만 "잭 - 러닝!"과 같은 것을 할 수 있는지 확신 할 수 없습니다. 나중에 --- 또는 ~! *! -의 인스턴스를 찾을 수 있습니다. 읽을 텍스트를 식별합니다.
을 그냥 해요 푹 침을하지만, 후 나에게 나중에 하나는 이러한 녹음 방송으로 '다른 것들'을 할 시간이 올 때.