cosine-similarity

0열

2답변

데이터 행 벡터의 상관 관계에 대해 클러스터링을 실행해야합니다. 즉, 개별 변수를 클러스터링 예측 변수로 사용하는 대신 벡터 간의 상관 관계를 사용하려고합니다. 데이터 행 사이의 변수. R에 벡터 기반 클러스터링 기능이 있습니까? 그렇지 않다면 수동으로해야합니다. cmeans 또는 kmeans와 같은 함수에서 올바른 데이터 형식은 무엇입니까? 말하자면, m

5열

2답변

키워드를 기반으로 매칭을위한 알고리즘

우리는 시장에서 서로를 찾으려하는 구매자와 판매자가 있다고 가정합니다. 구매자는 키워드로 자신의 필요를 태그 할 수 있습니다. 판매자는 판매하는 상품에 대해 동일한 조치를 취할 수 있습니다. 나는 그들의 두 키워드 세트에 기초하여 특정 구매자에 대한 관련성 측면에서 순위 순서 판매자가 알고리즘을 찾는 데 관심이있다. buyer_keywords = {"fur

2열

1답변

파이썬에서 코사인 유사성을 사용하여 쿼리 문서와 비교 한 가장 유사한 문서를 반환합니다.

파일 집합과 쿼리 doc가 있습니다. 각 문서에 대해 쿼리 문서와 비교하여 가장 유사한 문서를 반환하는 것이 목적입니다. 코사인 유사점을 사용하려면 먼저 문서 문자열을 벡터에 매핑해야합니다. 또한 각 문서를 계산하는 tf-idf 함수를 이미 만들었습니다. 문자열 인덱스를 얻으려면 그와 같은 함수가 있어야합니다. def getvectorKeywordIndex

1열

1답변

Lucene에서 tf가 커지면 항상 문서 스코어가 향상됩니까?

기본 용어 빈도 (tf)는 검색되는 특정 용어가 필드에 나타나는 횟수의 sqrt로 간단히 계산된다는 것을 알고 있습니다. 그래서 검색어를 여러 번 포함하는 문서는 더 높은 tf를 가지므로 체중이 더 커집니다. 내가 대해 확실 해요 것은이 증가이 문서가 득점하는 데 도움 여부 무게가 더 높은 또는 는 문서 점수를 줄일 수 있기 때문에 그 이동 거리 액션의 책

5열

1답변

Solr/Lucene에서 코사인 유사성을 모델링 할 수 있습니까?

Solr을 사용하여 코사인 유사성 알고리즘을 모델링하는 방법에 관심이 있습니다. 벡터에 지정된 항목이 있습니다. 예를 들면 다음과 같습니다. items = [ { id: 1, vector: [0,0,0,2,3,0,0] }, { id: 2, vector: [0,1,0,1,5,0,0] }, { id: 3, vector: [2,3,0,