나는 수많은 예제로 구성된 데이터 세트를 가지고 있는데, 각 예제에는 이름으로 분류 된 128 개의 연속 값 기능이 들어 있습니다. 나는 고차원 데이터를위한 KNN 분류 자로 사용할 큰 견고한 데이터베이스/인덱스를 찾고자합니다. 나는 Weka's IBk classifier을 시도했지만 많은 양의 데이터를 질식시키고 심지어 메모리에로드해야합니다. Lucene, 특히 PyLucene 인터페이스를 통해 가능한 대안이 될 수 있습니까?PyLucene을 K-NN 분류 자로 사용
비슷한 방법으로 Lucene을 사용하는 것 같습니다.하지만 코드를 검토 한 후, 어떻게 그 코드를 철저히 조사하고 있는지, 또는 내가 시도하고있는 것과 동일한 것인지 확실하지 않습니다. 해야 할 것.
나는 Lucene이 텍스트 인덱싱 도구로 설계된 것이지 일반적인 목적의 분류 기준이 아니라는 점을 알고 있지만 이런 식으로 사용할 수 있습니까?
는 "예 수백만을"처리하려면, 당신은해야 아파치 mahout - 분산 된 기계 학습 프레임 워크 - kNN : https://issues.apache.org/jira/browse/MAHOUT-115가있는 것 같습니다. – Skarab
Mahout의 KNN에 대한 설명서는 Taste 구성 요소의 간략한 참조 이외에는 찾을 수 없습니다.이 설명서에서는 부울 기능 만 지원한다고 명시되어 있습니다. Mahout은 범용 KNN으로 사용 가능한 것으로 보이지 않습니다. – Cerin