2012-10-02 7 views
1

저는 광범위하게 검색했습니다. 아마도 무엇을 검색해야할지 모르겠다.색인을 생성하여 사본이 선택되지 않은 PDF 파일을 보호했습니다.

"보안 된"PDF의 색인을 생성하고 검색 할 수 있어야합니다. 이 PDF에는 "복사 금지"속성이 선택되어 잠겨 있습니다. 즉, 사용자 이름과 비밀번호없이 PDF의 내용을 복사 할 수있는 방법이 없습니다. IFilter는 이러한 설정을 따르며 PDF의 색인 생성을 허용하지 않습니다.

aspx.net을 사용하여 내 서버에서이 PDF를 색인화하고 검색하는 방법을 찾고 있습니다. 내가 다음 중 하나로 붙어 있음을 나타납니다 :

  1. I whould PDF 파일이 제출 될 때 이러한 PDF 파일을 여는 데 필요한 자격 증명이 내용
  2. 에 "복사"접근 할 필요가 내 도구를 사용하려면 두 항목을 제출해야합니다. 단어 복사 - 및 - PDF 복사본
  3. 전체 내용을 PDF의 메타 데이터 또는 적어도 일부 핵심어로 복사하십시오. 나는 어떤 종류의 위험이 여기에 관련 될 수 있는지 조사하지 않았다. 이 서버 나 DB에 중 ... 중복 사본을 유지하는 것을 의미한다 작가

솔루션 하나 2에 대한 추가 단계를 의미 및 프로그램 다운로드에 대한 실제를 참조합니다. 아무도 이것에 대한 해결책을 찾지 못했습니까? 나는 콘텐츠의 중복을 의미하지 않기 때문에 인덱싱 기능을 선호합니다. 해결책 3은 PDF 메타 데이터가 많은 콘텐츠를 처리 할 수 ​​있고 보안이 손상되지 않은 경우에도 매력적입니다. 나는 또한 C# 또는 VB를 통해 액세스 권한을 얻기 위해 자격 증명을 사용할 수있는 PDF에 대한 프로그래밍 방식의 액세스에 대해 궁금해했습니다.하지만 막혀있을 수 있습니다.

다른 해결책을 찾는 마지막 시도입니다. 어떤 도움을 주시면 감사하겠습니다.

답변

0

나는 완전히 다른 솔루션과 함께가는 끝났다. 나는 MS의 색인 생성 방법을 좋아했지만 SQL을 사용하고 PDF를 업로드하는 사용자에게 핵심 단어 나 pdf의 내용을 텍스트 상자에 넣는 것이 훨씬 더 쉬워졌습니다. 그런 다음 SQL은 "열"과 bamm을 색인화 할 수 있습니다. 검색 엔진이 나머지를 수행합니다.

시간을내어이 문제를 고려해 주셔서 감사합니다.

0

파일에 대한 사용자 이름과 암호가있는 경우 파일을 열고 텍스트를 추출 할 수 있습니까?

그런 다음 추출 된 데이터에서 색인을 작성할 수 있습니다.

Docotic.Pdf, 내가 참여한 라이브러리는 암호로 보호 된 파일을 열 수 있습니다. 그리고 텍스트도 추출 할 수 있습니다. 텍스트는 일반 텍스트 또는 형식이 지정된 텍스트로 추출 할 수 있으며 단어 나 문자로 분리 할 수 ​​있습니다.

다음 샘플에서 참조하시기 바랍니다 :