2013-09-23 5 views
1

Item-Item '유사도'점수를 계산할 수 있도록 태그 API를 사용하여 항목에 태그를 지정 했으므로 항목 1에 { UK, MALE, 50}, 항목 2, {FRANCE, MALE, 22}, 그 종류의 것. 그게 잘 작동하고있어.Myrrix 태그 지정 API (가중치 부모/자식 항목 관계)

내가하고 싶은 것은 item-item 'relationships'을 나타냅니다. 따라서 제 신청서가 1이 2의 부모라고 말한다면 (그리고 좀 더 복잡하게하기 위해, 이것은 다중 레벨입니다), Myrrix에게이 두 항목을 좀 더 가까이서 전달하라고 말하고 싶습니다.

첫 번째 해결 방법은 각 항목에 'PARENT_ [name]'태그를 추가하고 각 상위 항목에 'PARENT_ [parentname]'태그를 추가하는 것입니다. 그것은 부모와 자녀를 가까이에 끌어들이는 데 성공했습니다.

제안의 전반적인 품질은 약간 떨어지는 것처럼 보였습니다. 결과는 점점 더 다양 해 보였습니다. 가져 오기를 다시 실행하면 결과가 완전히 무작위로 보입니다. 이것은 기능/람다 레벨에서 고정 될 수있는 것입니까?

답변

1

의 그 ... 나는 아직도 '기능은'무엇을 나타내는 지 정말 그렇게 명확하지 않다, 그러나 나의 의심은 대규모 가능한 태그의 수를 증가시켜, 나는 매우 다른 모델을 구성 할 필요가 있다는 것입니다 그것에 대해 생각하는 올바른 방법. API에 과부하가 걸리지 만 여전히 원칙적입니다.

실제로 결과에 도움이 될 수도 아닐 수도 있습니다. A 유형을 선호하는 사용자가 B 제품을 선호하는지 여부는 일반 제품군을 사용하기 때문에 B 유형을 사용하는 사용자에 따라 다릅니다. 어쩌면 음악을 위해; 토스터기처럼 한 번 사는 물건은 없을 것입니다.

가변성은 임의의 시작점에서 비롯됩니다. 매번 다른 모델을 얻을 것입니다. 차이점이 처음부터 시작할 때 중요하다면 과도하게 맞을 가능성이 있습니다. 데이터 수가 너무 많거나 람다 수가 너무 적을 수 있습니다.

또한 점수가 좋은지 평가하려면 평가를 실행해야합니다. 그것이 득점이 좋지 않다면, 그것은 최고의 가치를 잘 벗어나는 매개 변수의 경우입니다.

아이디어는 매번 처음부터 새 모델을 만들 필요가 없다는 것입니다.

+0

필자는 ParameterOptimizer에 꽤 많은 수의 매개 변수를 실험했으며 결과는 일반적으로 l = 0.3-0.4, f = 20-23에 위치합니다. 매우 근접한 두 항목 사이의 sim 점수는 높고 비교적 안정적이지만 공통된 태그가 없지만 0.99999994, 0.99998987 등의 점수를 갖는 완전히 가짜 항목이 많아 압도됩니다. l = 0.85 인 경우에도 f 나는 여전히 위조 된 것들을 매우 높게 잡았다. 단지 2K 항목만으로는 불가피하다고 받아 들여야 할 지점이 있습니까? –

+0

옵티 마이저에서 어떤 종류의 점수가 나옵니까? 너는 어떤 범위를 시도하고 있니? 나는 어떻게 든 이것이 아직도 꺼져 있다고 생각한다. 그러나 이러한 증상은 반대쪽, 소리가 잘 들리지 않는 것처럼 들리며, 모든 것이 끝나면 끝납니다. 인공 데이터가 없으면 어떤 일이 일어나는지보고 백업 할 수도 있습니다. –

+0

저는 PO를 다음과 같이 실행했습니다 : 0.8 0.8 model.features = 2 : 25 model.als.lambda = 0.0001 : 10 그리고 그것은 나에게 익숙한 l = 0.459, f = 19를 부여합니다. 상위 처리 태그를 제거하면 나는 0.25-0.45, f = 20ish 사이의 어딘가에 돌아 왔지만 심들은 훨씬 낫다 : Item 53에 대해 밀접하게 관련된 Item 55가 순서를 따라 올라간다 : http : // pastebin .com/sqas0hSP - 좋지만 미래에 부모 검색을 수행 할 수 없습니다. –