2016-10-27 4 views
0

매우 자주 나는 50에서 500Gb에 이르는 매우 큰 바이너리 파일을 다른 형식으로 처리해야하는데, 여기에는 기본적으로 문자열을 포함한 혼합 된 데이터가 들어 있습니다.바이너리 파일 용 문자열 인덱싱 도구

데이터베이스 또는 색인을 생성하면서 파일 내부의 문자열을 색인화해야하므로 빠른 검색 (기본 검색 또는 정규식과 함께 복잡한 검색)을 수행 할 수 있습니다. 검색 결과는 물론 바이너리 파일에서 발견 된 문자열의 오프셋이어야합니다.

누구든지이 작업에 도움이 될 수있는 도구, 프레임 워크 또는 라이브러리를 알고 있습니까?

답변

0

'문자열 -td'(Linux/OS X)를 실행하여 해당 오프셋이있는 문자열을 빼내어 Solr 또는 Elastic에 넣을 수 있습니다. 당신이 ASCII 이상을 원한다면, 그것은 더 복잡해진다.

Autopsy은 자체 문자열 추출 코드 (UTF-8 및 UTF-16 용)가 있으며 Solr에 넣습니다 (파일 형식이 지원되는 경우 Tika 사용). 그러나 이진 파일의 오프셋을 기록하지 않습니다. 따라서 귀하의 필요를 충족시키지 못할 수도 있습니다.