2012-04-03 1 views
3

방금 ​​Solarspot을 사용하여 Rails 응용 프로그램에 Solr을 설치했습니다.Solr - Reindex 권장 배치 크기

나는 내 테이블 중 하나에서 몇 개의 컬럼을 재 인덱싱하기를 원한다. 테이블은 꽤 컸다 (~ 50M 레코드).

사용할 권장 배치 크기는 무엇입니까? 현재 나는 1000을 사용하고 있으며 하루 이상 실행됩니다.

아이디어가 있으십니까?

답변

2

일괄 처리 크기가 그다지 중요하지는 않습니다. 1000 이상은 아니지만 괜찮습니다. 문서의 크기, 각 텍스트에 대해 얼마나 많은 텍스트 바이트가 인덱싱되는지에 따라 다릅니다.

각 배치가 끝나면 커밋 하시겠습니까? 느려질 수 있습니다. 마지막에 하나의 커밋으로 23M 문서 인덱스를로드합니다. 문서는 작고 책의 메타 데이터이며 약 90 분이 걸립니다. 이 속도를 얻으려면로드에 대해 단일 SQL 쿼리를 사용해야했습니다. 하위 쿼리를 사용하면 약 10 배 느려집니다. 나는 DB 쿼리를 만들고 배치를 제출 일부 사용자 지정 코드로 이동할 수 있지만

나는 DataInputHandler의 JDBC 지원을 사용하고 있습니다.

CSV 입력 처리기가 매우 효율적이어서 데이터를 CSV로 덤프하여 처리기로로드 할 수 있다고 들었습니다.