2017-10-16 4 views
1

저는 Solr을 사용하여 XML 파일에서 구문 분석 된 정보의 검색을 실행하기를 바라고 있습니다. 이러한 XML 파일은 Solr의 문서 형식이 아니므로이를 구문 분석하고 필자가 필요로하는 필드를 가져와야합니다.Apache Solr, SolrJ 대 XML 구문 분석을위한 데이터 가져 오기 처리기

저는 Java 프로그래밍에 익숙하며 SolrJ가 데이터 가져 오기 처리기를 사용하는 것보다 쉬운 방법인지 궁금합니다. 내가 가진 각 XML 파일을 실행하고 각각에서 필요한 필드를 구문 분석하는 것을 고려하고 있습니다. 한 가지 방법에 다른 단점이 있습니까? Java에 익숙해지면서 XML을 파싱하는 것이 더 쉬울 수도 있기 때문에 상상할 수 있습니까?

아마 여러 조건과 정규식이 필요할 것입니다. 무엇보다 신뢰할 수있는 방법으로 상대적으로 구조화되지 않은 XML에서 내 필드를 가져올 수 있습니다.

SolrJ는 인터페이스와 어떻게 작동합니까? 즉, SolrJ를 사용하여 색인을 생성하면 인터페이스를 통해 내 쿼리를 여전히 수행 할 수 있습니까?

답변

1

콘텐츠를 Solr로 색인화하는 방법은 사용자가 검색하는 방법과 직각입니다. 색인에 올바른 문서를 생성하는 한 원하는 방식으로 색인을 생성 할 수 있습니다.

이제 색인 생성과 관련하여 DIH가 많은 조정을하지 않고도 필요한 정보를 얻을 수 있다면이를 수행하십시오. 그러나 데이터를 많이 조정해야하는 경우 Solr을 사용하여 Java를 작성하면 더 빨리 끝낼 수 있습니다. Solr을 사용하면 모든 유연성을 얻을 수 있습니다. DIH를 사용하면 더욱 제한적입니다 (80/20 규칙을 생각해보십시오).

+0

그리고 DIH는 SorlJ로 모든 문서를 추가하는 것보다 빠릅니다. –

3

DIH는 프로토 타이핑 용으로 설계되었지만 일부 사람들은 프로덕션 용으로 사용합니다. 당신은 그것으로부터 시작할 수 있지만, 당신이 그것의 한계를 치면 SolrJ 또는 다른 방법으로 점프 할 준비를하십시오. 매우 복잡한 매핑이 있다면 SolrJ를 시작하는 것이 더 나을 것입니다.

apply XSLT transform on an incoming XML document 또한 Solr 형식으로 매핑 할 수 있습니다.

그리고 다른 곳에서 말했듯이 검색은 색인 생성과는 별개의 문제입니다.