데이터 행 벡터의 상관 관계에 대해 클러스터링을 실행해야합니다. 즉, 개별 변수를 클러스터링 예측 변수로 사용하는 대신 벡터 간의 상관 관계를 사용하려고합니다. 데이터 행 사이의 변수. R에 벡터 기반 클러스터링 기능이 있습니까? 그렇지 않다면 수동으로해야합니다. cmeans 또는 kmeans와 같은 함수에서 올바른 데이터 형식은 무엇입니까? 말하자면, m
우리는 시장에서 서로를 찾으려하는 구매자와 판매자가 있다고 가정합니다. 구매자는 키워드로 자신의 필요를 태그 할 수 있습니다. 판매자는 판매하는 상품에 대해 동일한 조치를 취할 수 있습니다. 나는 그들의 두 키워드 세트에 기초하여 특정 구매자에 대한 관련성 측면에서 순위 순서 판매자가 알고리즘을 찾는 데 관심이있다. buyer_keywords = {"fur
파일 집합과 쿼리 doc가 있습니다. 각 문서에 대해 쿼리 문서와 비교하여 가장 유사한 문서를 반환하는 것이 목적입니다. 코사인 유사점을 사용하려면 먼저 문서 문자열을 벡터에 매핑해야합니다. 또한 각 문서를 계산하는 tf-idf 함수를 이미 만들었습니다. 문자열 인덱스를 얻으려면 그와 같은 함수가 있어야합니다. def getvectorKeywordIndex
기본 용어 빈도 (tf)는 검색되는 특정 용어가 필드에 나타나는 횟수의 sqrt로 간단히 계산된다는 것을 알고 있습니다. 그래서 검색어를 여러 번 포함하는 문서는 더 높은 tf를 가지므로 체중이 더 커집니다. 내가 대해 확실 해요 것은이 증가이 문서가 득점하는 데 도움 여부 무게가 더 높은 또는 는 문서 점수를 줄일 수 있기 때문에 그 이동 거리 액션의 책
Solr을 사용하여 코사인 유사성 알고리즘을 모델링하는 방법에 관심이 있습니다. 벡터에 지정된 항목이 있습니다. 예를 들면 다음과 같습니다. items = [
{ id: 1, vector: [0,0,0,2,3,0,0] },
{ id: 2, vector: [0,1,0,1,5,0,0] },
{ id: 3, vector: [2,3,0,