2017-11-13 12 views
0

안녕하세요 저는 Solr을 신설하고 Windows 7에서 Solr 7.0.0을 사용하고 있습니다. Solr이 클라우드 모드로 실행됩니다. 나는 컬렉션을 생성하고 다음 명령을 사용하여 인덱스에 폴더에 거주하는 PDF 및 HTML 파일의 목록을 시도 : 내 폴더에solr의 pdf 및 html 파일 인덱싱을 사용하면 html 색인의 오류가 발생합니다.

> java -jar -Dc=guidanceDoc -Dauto example\exampledocs\post.jar M:\Projects\guidance\documents\* 

PDF 파일이 더 ".PDF"확장하지만, HTML이 없습니다를 파일의 확장자는 htm입니다.

위 명령을 사용하여 색인을 생성하는 동안 pdf 파일의 색인은 오류없이 수행됩니다.

> POSTing file ucm073837.htm (text/html) to [base]/extract 
> SimplePostTool: WARNING: Solr returned an error #400 (Bad Request) for 
> url: http 
> ://localhost:8983/solr/guidanceDoc/update/extract?resource.name=M%3A%5CProjects% 
> 5Cguidance%5Cdocuments%5Cucm073837.htm&literal.id=M%3A%5CProjects%5Cguidance%5Cd 
> ocuments%5Cucm073837.htm SimplePostTool: WARNING: Response: { 
> "responseHeader":{ 
>  "status":400, 
>  "QTime":10}, "error":{ 
>  "metadata":[ 
>  "error-class","org.apache.solr.common.SolrException", 
>  "root-error-class","org.apache.solr.common.SolrException"], 
>  "msg":"Document contains multiple values for uniqueKey field: id=[M:\\Projec ts\\guidance\\documents\\ucm073837.htm, UCM073837]", 
>  "code":400}} SimplePostTool: WARNING: IOException while reading response: java.io.IOException : Server returned HTTP response code: 
> 400 for URL: http://localhost:8983/solr/gu 
> idanceDoc/update/extract?resource.name=M%3A%5CProjects%5Cguidance%5Cdocuments%5C 
> ucm073837.htm&literal.id=M%3A%5CProjects%5Cguidance%5Cdocuments%5Cucm073837.htm 
  • 어떻게이 문제를 해결할 수 : 프로세스가 HTML 파일을 취득하는 경우 다음과 같이 명령을 실행하는 동안 오류가 표시?

답변

0

이 html 파일의 색인 생성 문제는 확장과 관련이 없습니다. 오류 메시지에서 언급 한대로 :

Document contains multiple values for uniqueKey field: id=[M:\\Projec ts\\guidance\\documents\\ucm073837.htm 

고유 키가 파일에 여러 번 존재하지 않아야합니다. 또 다른 가능성은 schema.xml의 uniqueKey를 다른 필드로 변경하는 것이지만 id 필드는 변경하지 않는 것입니다.

+0

답변 해 주셔서 감사합니다. 문서는 pdf와 html이고 나는 어떤 식별자도 나 자신으로 할당하지 않았다. 모든 것은 자동으로 solr에 의해 수행됩니다. 좀 더 구체적으로 안내해 줄 수 있습니까? – user6725114