2014-09-12 11 views
0

저는 디지털 인류 응용 프로그램을 가지고 있는데, 여기에는 디지털화 된 역사 문서가 많이 있으며, 학생들은 텍스트를 전사합니다. 여기에 스키마가 있습니다 ...디지털 인문학 표현에서 읽을 수없는 데이터를 나타내는 적절한 문자열은 무엇입니까?

create_table "documents", force: true do |t| 
    t.string "document_name" 
    t.date  "date_filed" 
    t.string "grantor" 
    t.string "grantee" 
    t.string "description" 
    t.string "document_file_name" 
    t.string "document_content_type" 
    t.integer "document_file_size" 
    end 

    create_table "transcriptions", force: true do |t| 
    t.text  "content" 
    t.integer "user_id" 
    t.integer "document_id" 
    end 

    create_table "users", force: true do |t| 
    t.string "email" 
    t.string "password_digest" 
    t.string "role" 
    end 

앱은 꽤 간단합니다. S3에 이미지를 저장하기 위해 클립을 사용하고 있습니다. 학생들은 텍스트 필드가 될 '필사본'을 만들 것입니다. 그런 다음 텍스트를 검색 가능하게 만들 것입니다.

읽을 수없는 텍스트가 많은 오래된 문서입니다. 프로그래밍 방식으로 나중에 식별 할 수 있기를 바라면서 사용자가 읽을 수없는 단어를 나타낼 수있는 방법을 원합니다. 하나의 유스 케이스는 다른 사람 (원본 필사자가 아닌)이 필사본을 볼 때 읽을 수없는 단어에 대한 제안 (또는 편집)을 할 수있는 경우 일 수 있습니다.

예를 들어 사용자는 문서/이미지에서 "잭 잭 참조"라는 문장을 볼 수 있습니다. 따라서 텍스트 영역에서 단어를 해석 할 수 없다면 "See Jack ---"을 입력 할 수 있습니다. 또는 이라고 생각하면 단어가 무엇인지 알지만 "잭 - 러닝!"과 같은 것을 할 수 있는지 확신 할 수 없습니다. 나중에 --- 또는 ~! *! -의 인스턴스를 찾을 수 있습니다. 읽을 텍스트를 식별합니다.

을 그냥 해요 푹 침을하지만, 후 나에게 나중에 하나는 이러한 녹음 방송으로 '다른 것들'을 할 시간이 올 때.

답변

0

을 덜 슬픔을 줄 수있는 몇 가지 문자가있는 경우 그냥 궁금 이번 주 일부 연구는 다음과 같습니다.

먼저 스미소니언에는 군중 기반의 디지털화 프로젝트가 있으며 다음과 같은 권장 지침이 제공됩니다.

If you find a word you can’t quite read 

Please make a note using double brackets [[ ]] like this: [[good guess?]] or simply [[?]]. Save your work and you can continue transcribing the rest of the item. 

는 ... 여기에 대한 추가 정보 : https://transcription.si.edu/instructions

둘째, 거기에 '기성품'몇 가지 옵션이 있습니다. Omeca DH 도구를 기반으로 한 http://scripto.org/omeka/.

레일 사용자의 경우 해당 페이지에서 https://github.com/benwbrum/fromthepage입니다. 이것은 필사체가 필기 문서로 공동 작업 할 수있게 해주는 위키 스타일 앱입니다.