2013-05-09 5 views
0

각 개체에 1000 개의 이진 기능이 있거나없는 개체가 14 개 있다고 가정합니다. 14x14 유사도 매트릭스가 있지만 14x1000 원시 데이터는 없습니다. 유사성 매트릭스가 주어지면 원본 데이터와 비슷한 것을 재구성하거나 생성하는 방법이 있습니까?유사성 매트릭스에서 데이터를 생성하는 방법은 무엇입니까?

몬테카를로 시뮬레이션을 시도했지만 원래의 유사성 매트릭스와의 일관성 수준을 낮추는데 너무 많은 시간이 걸릴 것입니다.

관련 질문 : Similarity matrix -> feature vectors algorithm?. 그러나 그들은 차원을 증가시키지 않기를 원했습니다. 또한, (1) 어떤 행렬을 사용할 지, (2) 어떻게 이진 행렬로 변환 할 지 모르겠습니다.

답변

0

유사점 점수가 계산 된 방법을 설명하지 않는 한 확실하게 말할 수는 없습니다.

일반적으로 평범한 종류의 유사성 스코어링의 경우 이는 불가능합니다. 개별 기능에서 통계 집계로 변환 할 때 정보가 손실됩니다. 당신이 할 수있는 최선의 방법은 유사성 점수와 일치하는 일련의 기능에 도달하는 것입니다.

나는 그것이 당신이 "원본과 비슷하다"고 말할 때 당신이 말하는 것이라고 생각합니다. 그 문제는 꽤 흥미 롭습니다. 유사성이 두 특징 벡터의 내적 (즉, 값 = 1/참을 갖는 한 쌍의 대상에 대한 지형지 ​​물의 수)으로 계산되었다고 가정합니다. 이것은 유일한 선택은 아니며 값이 0 (거짓) 인 경우 정보가 없음을 의미합니다. 그러나 그것은 다른 유사성 척도로 일반화 될 수있다.

이러한 경우 문제는 실제로 선형 프로그래밍 문제입니다. 순진한 접근법은 무작위 적으로가 아니라 제약 조건에 의해 유도되는 가능한 개체의 공간을 철저히 검색하는 것입니다. 예를 들어, SIM (A, B) : = 객체 A와 객체 B의 유사성을 가정 해보십시오. 이러한 벡터에 대한 순서를 정의하십시오.

SIM (A, B) = N이면 A = B 최소값 (1, ..., 1 (N 배), 0, ... 0 (1000-N 배) (A, C), (B, C)가 주어진 값을 갖도록 선택하십시오. 불일치, 역 추적 및 증분을 찾으면

복잡성은 있지만 일관된 답을 찾을 수 있습니다. 매우 높지만 (아마 몬테카를로보다 낫다.)

더 나은 알고리즘을 찾는 것이 흥미로운 문제이지만, 그 이상의 것은 내가 말할 수 없다. CS 논문을위한 주제 일 것이다.