2011-04-20 2 views
3

솔라 페이싱 파워 태그 클라우드의 로직 뒤에 붙어있는 것처럼 보입니다. 우선, OpenNLP를 사용하여 내 문서를 구문 분석하고 관련 단어를 가져 와서 모든 단일 문서가 n 개의 단어로 분할됩니다. 여기에 단어를 통합 할 수있는 방법이 있어야합니다 생각Solr powered 태그 클라우드

<docID> 
<title>My Doc Title</title> 
<content>My Doc Title</content> 
<date_published>My Doc Title</date_published> 
</docID> 

: 그리고 여기처럼 내 SOLR 응답이 모습 기본적입니다. 내가 처음이 같은 생각 :

<docID> 
<title>My Doc Title</title> 
<content>My Doc Title</content> 
<date_published>My Doc Title</date_published> 
<words>word</words> 
<words1>word1</words1> 
<words2>word2</words2> 
<words3>word3</words3> 
<wordsN>wordN</wordsN> 
</docID> 

그러나 패 시팅 내가 수있는 ID 당 얻을 얼마나 많은 단어 필드 아무 생각이 없기 때문에, 다음 패 시팅은 (필드에 걸쳐 수행되어야 할 텐데, 불가능했을 것입니다 나는 그것을 잘 모르겠다.). 나는 가능한 대답을 들여다 보려고 노력하고 있지만 나는 붙어있는 것처럼 보입니다 ... 결국, 나는 색인에있는 각 독본을 얻을 수있는 n 개의 단어를 만들어야합니다. 생각은 높이 평가 될 것입니다.

답변

2

여러 개의 단어 필드를 사용하여 문서 당 단어 목록을 저장하는 것이 좋습니다.

단어 \ d + 입력란에 바인딩되지 않은 숫자가있는 항목은 복잡합니다.

단일 단어 다중 값 필드를 사용하는 경우 태그 클라우드를 만들기에 충분해야하는 빈도와 함께 모든 단어를 얻을 수 있습니다.

+0

감사합니다. Solr에서 다중 값 필드 옵션을 살펴 보지 않았습니다. 필자가 읽은 것처럼, 다중 값 필드를 적절히 처리 할 수 ​​있습니다. 지금 바로 테스트 할 코드를 만들어 봅니다. –