유사점 점수가 계산 된 방법을 설명하지 않는 한 확실하게 말할 수는 없습니다.
일반적으로 평범한 종류의 유사성 스코어링의 경우 이는 불가능합니다. 개별 기능에서 통계 집계로 변환 할 때 정보가 손실됩니다. 당신이 할 수있는 최선의 방법은 유사성 점수와 일치하는 일련의 기능에 도달하는 것입니다.
나는 그것이 당신이 "원본과 비슷하다"고 말할 때 당신이 말하는 것이라고 생각합니다. 그 문제는 꽤 흥미 롭습니다. 유사성이 두 특징 벡터의 내적 (즉, 값 = 1/참을 갖는 한 쌍의 대상에 대한 지형지 물의 수)으로 계산되었다고 가정합니다. 이것은 유일한 선택은 아니며 값이 0 (거짓) 인 경우 정보가 없음을 의미합니다. 그러나 그것은 다른 유사성 척도로 일반화 될 수있다.
이러한 경우 문제는 실제로 선형 프로그래밍 문제입니다. 순진한 접근법은 무작위 적으로가 아니라 제약 조건에 의해 유도되는 가능한 개체의 공간을 철저히 검색하는 것입니다. 예를 들어, SIM (A, B) : = 객체 A와 객체 B의 유사성을 가정 해보십시오. 이러한 벡터에 대한 순서를 정의하십시오.
SIM (A, B) = N이면 A = B 최소값 (1, ..., 1 (N 배), 0, ... 0 (1000-N 배) (A, C), (B, C)가 주어진 값을 갖도록 선택하십시오. 불일치, 역 추적 및 증분을 찾으면
복잡성은 있지만 일관된 답을 찾을 수 있습니다. 매우 높지만 (아마 몬테카를로보다 낫다.)
더 나은 알고리즘을 찾는 것이 흥미로운 문제이지만, 그 이상의 것은 내가 말할 수 없다. CS 논문을위한 주제 일 것이다.