내 순위는 제대로 훈련 받았습니까?

내가 질문 What is the ...? 랭커 ID없이 /fcselect 핸들러를 사용하여 물어 다음 문서있어 : 다음내 순위는 제대로 훈련 받았습니까?

"docs": [ 
    {"id": "100"}, // ranked first 
    {"id": "101"}, // ranked second 
    ... 
    {"id": "198"}, // ranked second from last (99th) 
    {"id": "199"} // ranked last (100th) 
]

을, 나는 다음과 같은 지상의 진리를 사용하여 열하을 만들어 : 다음

What is the ...?,199,5,198,4 
...

를, 내가 부탁 * 동일한 질문 */fcselect 랜카 처리기를 사용하여 다음 문서가 있습니다.

"docs": [ 
    {"id": "100"}, // ranked first 
    {"id": "101"}, // ranked second 
    ... 
    {"id": "199"}, // ranked 30th 
    ... 
    {"id": "198"} // ranked 35th 
    ... 
]

그러나 나는 다음과 같은 순서로 같은 기대 :

"docs": [ 
    {"id": "199"}, // ranked first 
    {"id": "198"}, // ranked second 
    {"id": "100"}, // ranked third 
    {"id": "101"} // ranked 4th 
    ... 
]

은 열하 제대로 훈련인가?

출처

2017-02-21 takehilo

비슷한 질문에 대한 답변은 여기를 참조하십시오. https://developer.ibm.com/answers/questions/317822/4-stars-answers.html.

학습 - 랭크 접근법을 사용하면 순위가 '정확함'으로 표시된 답변을 검색 결과의 맨 위까지 이동시킬 수 있습니다. 이는 랜카가 정답을 외우지 않고 이기 때문에 오히려 쿼리와 검색 결과 간의 겹침을 캡처하는 기능 값 분포에서 일반화를 포착하기를 원하기 때문입니다. 순위 조정자 훈련이 예상대로 작동하는지 확인하기 위해 대규모 쿼리 집합 (교육 중 사용 된 쿼리와 다른)에서 상위 1 개 결과 정확도를 측정하고 평균에 대해 의 개선 사항을 확인할 수 있습니다.

그렇다면 순위가 높은 상위 2 위 검색 결과가 순위 교육에 전혀 변경되지 않는다는 것은 분명 이상합니다. 실험을 통해 성능을 향상시킬 수있는 몇 가지 사항은 다음과 같습니다.

행 개수가 충분히 많습니다 (예를 들어 기본값이 10이므로 매개 변수를 100 이상으로 설정해야 함).

런타임 진도 파일 준비시 포함되는 행 수는 런타임 중에 포함 된 행 수와 동일합니다 (최적의 성능을 위해 일치해야하며 성능 조정을 위해 사용할 수있는 설정 임) ?

쿼리와 순위가 혼동 될 수있는 정답 문서 사이에 어휘 간격이 있습니까? 검색어와 정답 사이의 겹침을 개선하기 위해 동의어/스톱 워드 제거/소문자 제거/형태소 분석 등을 색인/검색어 분석기에 통합 할 수 있습니까?

교육 및 런타임 중에 질문과 후보 검색 결과의 겹침을보다 잘 포착 할 수있는 추가 기능이 있습니까? 자세한 내용은 여기를 참조하십시오 : https://medium.com/machine-learning-with-ibm-watson/developing-with-ibm-watson-retrieve-and-rank-part-3-custom-features-826fe88a5c63?cm_mc_uid=06908383978514879641730&cm_mc_sid_50200000=1488383112#.gtzsdg4k3

출처

2017-03-01 16:02:12 chakravr

내 순위는 제대로 훈련 받았습니까?

답변

관련 문제