cosine-similarity

0열

1답변

코사인 유사도에 대한 입력은 비교할 두 개의 다른 데이터를 나타내는 두 개의 벡터입니다. 벡터의 의미에 대한 요구 사항이 있습니까? 단순히 각 파일의 바이트 표현 일 수 있습니까? 그런 다음 각 바이트의 빈도를 계산 하시겠습니까? 이게 말이 돼? 또는 각 차원이 파일의 원시 데이터가 아닌 파일의 벡터화가 있어야하지만 텍스트 파일 또는 tf-idf 인코딩 모

2열

1답변

PHP의 코사인 유사도

PHP에서 1 (ID1)과 3 (ID1) 사이의 코사인 유사성을 계산하고 싶습니다. similarity = (1.1 * 3.1 + 1.4 * 3.4)/(((1.1)^2+(1.3)^2+(1.4)^2)^0.5)(((3.1)^2+(3.4)^2)^0.5) = (4*4+8*4)/(((16+16+64)^0.5)(16+16)^0.5)) 내 데이터 세트는 다음과 같습

6열

4답변

TF-IDF (코사인 유사성)를 PageRank와 결합 하시겠습니까?

쿼리에 대해 문서의 코사인 점수가 있습니다. 나 또한 문서 pagerank 있습니다. 두 가지를 결합하는 표준 좋은 방법이 있습니까? 내가 곱의 생각들을 Total_Score = cosine-score * pagerank 당신도 페이지 랭크 (PageRank) 또는 코사인 점수 낮은에 도착하면, 문서가 흥미 없기 때문에. 가중치가 더 있습니까? Tota

7열

2답변

수백만 개의 문자열 사이의 코사인 유사성을 효율적으로 계산하는 방법

목록의 문자열 간의 코사인 유사성을 계산해야합니다. 예를 들어 1000 만 개가 넘는 문자열 목록이 있으며 각 문자열은 목록에서 다른 모든 문자열과의 유사성을 결정해야합니다. 이러한 작업을 효율적이고 신속하게 수행하는 데 사용할 수있는 최선의 알고리즘은 무엇입니까? 분할 및 정복 알고리즘이 적용 가능합니까? 나는 주어진 문자열과 가장 유사한있는 문자열을 결

4열

1답변

어떻게 Lucene에서 tf-idf와 코사인 유사성을 구현할 수 있습니까?

어떻게 Lucene에서 tf-idf와 코사인 유사성을 구현할 수 있습니까? 나는 Lucene 4.2를 사용하고있다. 내가 만든 프로그램은 tf-idf와 Cosine similaryty를 사용하지 않고 오직 TopScoreDocCollector만을 사용합니다. import com.mysql.jdbc.Statement; import java.io.Buffer

1열

1답변

Mahout에있는 RandomAccessSparseVectors의 코사인 거리

저는 Mahout을 처음 접했고 최근에이 이전 프레임 워크에 대한 많은 학습 도구를이 프레임 워크로 변환하고 있습니다. 많은 곳에서 클러스터링, 분류 등을 위해 벡터 간의 코사인 유사성을 사용하고 있습니다. 그러나 마후트의 distance method을 조사하면 상당히 놀랐습니다. 다음 코드에서, 치수 및 플로트 값 내 프로그램 중 하나의 실제 출력 (이

1열

1답변

코사인 유사성이 잘못된 거리를 반환 함

두 개의 벡터가 HashMap로 표현되어 있는데 둘 사이의 유사점을 측정하고 싶습니다. 나는 메트릭 다음 코드에서와 같이 코사인 유사성을 사용 public static void cosineSimilarity(HashMap<Integer,Double> vector1, HashMap<Integer,Double> vector2){ double scalar=0.

0열

1답변

다중 유형 데이터에서 코사인 유사성을 계산하는 방법은 무엇입니까?

데이터베이스에 레코드 (행)가 있고 비슷한 레코드를 식별하고 싶습니다. 코사인 유사성을 사용하는 데 제약이 있습니다. 변수 (속성, 열) 형태로 다양하며,이 형태로 제공하는 경우 : [number] [number] [boolean] [20 words string] 가 어떻게 코사인 유사성을 적용 할 벡터화를 진행 할 수 있습니까? 문자열의 경우 간단한

0열

1답변

lucene의 getTermFrequencyVector

lucene 함수 getTermFreqVector()가 두 문서 사이의 코사인 세타 유사 거리를 계산하는 동안 어떻게 작동하는지 알게되었습니다. 누구든지 getTermFreqVector (doc number, field-name)에서 "field-name"이 의미하는 바를 밝힐 수 있습니까?

2열

1답변

calculate 두 부사 또는 두 형용사의 유사성

두 부사 또는 두 형용사의 유사성을 계산하는 프로그램을 작성하고 싶지만 WordNet은 부사 및 형용사에 대한 온톨로지 구조가 없습니다. 첫 시도에서 Adapt-lesk 알고리즘을 사용했습니다. 이 알고리즘의 결과는 부사 또는 형용사에 대해 매우 실망 스럽습니다. 이들의 유사성을 계산하는 가장 좋은 방법은 무엇입니까? 이 문제를 해결하도록 도와주세요. 감사