cosine-similarity

    0

    1답변

    코사인 유사도에 대한 입력은 비교할 두 개의 다른 데이터를 나타내는 두 개의 벡터입니다. 벡터의 의미에 대한 요구 사항이 있습니까? 단순히 각 파일의 바이트 표현 일 수 있습니까? 그런 다음 각 바이트의 빈도를 계산 하시겠습니까? 이게 말이 돼? 또는 각 차원이 파일의 원시 데이터가 아닌 파일의 벡터화가 있어야하지만 텍스트 파일 또는 tf-idf 인코딩 모

    2

    1답변

    PHP에서 1 (ID1)과 3 (ID1) 사이의 코사인 유사성을 계산하고 싶습니다. similarity = (1.1 * 3.1 + 1.4 * 3.4)/(((1.1)^2+(1.3)^2+(1.4)^2)^0.5)(((3.1)^2+(3.4)^2)^0.5) = (4*4+8*4)/(((16+16+64)^0.5)(16+16)^0.5)) 내 데이터 세트는 다음과 같습

    6

    4답변

    쿼리에 대해 문서의 코사인 점수가 있습니다. 나 또한 문서 pagerank 있습니다. 두 가지를 결합하는 표준 좋은 방법이 있습니까? 내가 곱의 생각들을 Total_Score = cosine-score * pagerank 당신도 페이지 랭크 (PageRank) 또는 코사인 점수 낮은에 도착하면, 문서가 흥미 없기 때문에. 가중치가 더 있습니까? Tota

    7

    2답변

    목록의 문자열 간의 코사인 유사성을 계산해야합니다. 예를 들어 1000 만 개가 넘는 문자열 목록이 있으며 각 문자열은 목록에서 다른 모든 문자열과의 유사성을 결정해야합니다. 이러한 작업을 효율적이고 신속하게 수행하는 데 사용할 수있는 최선의 알고리즘은 무엇입니까? 분할 및 정복 알고리즘이 적용 가능합니까? 나는 주어진 문자열과 가장 유사한있는 문자열을 결

    4

    1답변

    어떻게 Lucene에서 tf-idf와 코사인 유사성을 구현할 수 있습니까? 나는 Lucene 4.2를 사용하고있다. 내가 만든 프로그램은 tf-idf와 Cosine similaryty를 사용하지 않고 오직 TopScoreDocCollector만을 사용합니다. import com.mysql.jdbc.Statement; import java.io.Buffer

    1

    1답변

    저는 Mahout을 처음 접했고 최근에이 이전 프레임 워크에 대한 많은 학습 도구를이 프레임 워크로 변환하고 있습니다. 많은 곳에서 클러스터링, 분류 등을 위해 벡터 간의 코사인 유사성을 사용하고 있습니다. 그러나 마후트의 distance method을 조사하면 상당히 놀랐습니다. 다음 코드에서, 치수 및 플로트 값 내 프로그램 중 하나의 실제 출력 (이

    1

    1답변

    두 개의 벡터가 HashMap로 표현되어 있는데 둘 사이의 유사점을 측정하고 싶습니다. 나는 메트릭 다음 코드에서와 같이 코사인 유사성을 사용 public static void cosineSimilarity(HashMap<Integer,Double> vector1, HashMap<Integer,Double> vector2){ double scalar=0.

    0

    1답변

    데이터베이스에 레코드 (행)가 있고 비슷한 레코드를 식별하고 싶습니다. 코사인 유사성을 사용하는 데 제약이 있습니다. 변수 (속성, 열) 형태로 다양하며,이 형태로 제공하는 경우 : [number] [number] [boolean] [20 words string] 가 어떻게 코사인 유사성을 적용 할 벡터화를 진행 할 수 있습니까? 문자열의 경우 간단한

    0

    1답변

    lucene 함수 getTermFreqVector()가 두 문서 사이의 코사인 세타 유사 거리를 계산하는 동안 어떻게 작동하는지 알게되었습니다. 누구든지 getTermFreqVector (doc number, field-name)에서 "field-name"이 의미하는 바를 밝힐 수 있습니까?

    2

    1답변

    두 부사 또는 두 형용사의 유사성을 계산하는 프로그램을 작성하고 싶지만 WordNet은 부사 및 형용사에 대한 온톨로지 구조가 없습니다. 첫 시도에서 Adapt-lesk 알고리즘을 사용했습니다. 이 알고리즘의 결과는 부사 또는 형용사에 대해 매우 실망 스럽습니다. 이들의 유사성을 계산하는 가장 좋은 방법은 무엇입니까? 이 문제를 해결하도록 도와주세요. 감사