2017-10-19 8 views
0

문자 인식 프로젝트를 수행하기 위해 나는 훈련 세트로 사용할 수있는 데이터베이스를 발견했습니다. 반면에 아래의 지시 사항이 주어 지더라도 주어진 형식을 이해할 수는 없습니다. 이 형식을 파악하는 방법에 대한 더 이상의 도움을 찾을 수 없습니다.이 문자 데이터베이스 형식 이해

필드 1-6은 쉼표로 구분됩니다. 소스 문서의


  1. ID 번호
  2. 2 바이트 기호 코드 맵
  3. 비트 맵
  4. 문자 폭
  5. 비트 맵 이미지의
  6. 문자 높이 (4 바이트를 사용하여 16 진수로 기록) 여기서 각 8 비트 단위는 0에서 255 사이의 십진수로 쓰여집니다.
  7. 줄 바꿈

데이터베이스의 파일 (Google 드라이브)에 대한 링크가 아래에 첨부되어 있습니다. 누군가가이 형식이 표시되는 방법을 알아낼 수 있다면

https://drive.google.com/file/d/0B-WsCQkhd_1iUUtJdHg0R1hfTHM/view?usp=sharing

그것은 큰 도움이 될 것입니다. 그것은 문자로 나를 혼란스럽게합니다.

답변

0

글쎄,이 형식을 이해할 수있는 한 모든 문자 설명은 줄 바꿈 기호까지 한 줄을 사용합니다. 소스 문서의

  1. ID 번호
  2. 바이트 기호 코드 비트 맵
  3. 문자 높이
  4. 비트 맵
  5. 문자 폭
  6. 비트 맵 이미지 (4 바이트를 사용하여 16 진수로 기록) 여기서 각 8- 비트 단위는 0에서 255까지 십진수로 쓰여지고 여기서 마술이 시작됩니다. 비트 맵 이미지는 하나의 쉼표로 구분 된 값이 아니라 라인 피드를 만날 때까지 모든 값입니다. 따라서 비트 맵 높이와 너비 값을 사용하여 행으로 나눌 수있는 쉼표로 구분 된 값이 많이있을 것입니다.

stanart windows notepad 대신 메모장 ++에서이 파일을 열면 줄 바꿈을보기 위해 "모든 문자 표시"를 켜십시오.

희망이 있으면 도움이 될 것입니다.

+0

답변 해 주셔서 감사합니다. 하지만 난 여전히 칼럼이 무엇인지에 대해 분류 할 수 없다 ... 어떤 칼럼이 높이인지, 어떤 칼럼이 넓이인지, 어느 것이 기호 코드 등인지 알 수있다. –

+0

1 칼럼은 id 여야한다. 2-3은 2 열의 기호 코드 일 수 있습니다. 1 열당 3 바이트, 4 열 너비, 다음 열은 이해할 수 없지만 셀프 비트 맵 데이터는 아마도 15 열에서부터 시작될 것입니다. 적어도 범위 내의이 열 다음에 오는 모든 값 0에서 255까지, 각 값의 모든 비트는 하나의 픽셀을 나타냅니다 (아마), 컬럼 5-14의 목적은 무엇인지 모르겠습니다. –

+0

감사합니다. 너비가 너비 인 경우 4 번째 및 5 번째 열을 의미했습니다. –