골드 표준으로 사용되는 데이터 세트를 사용해야합니다.
관련성은 검색어가 아닌 검색어와 관련하여 평가됩니다. 예를 들어 정보 요구 사항은 다음과 같을 수 있습니다.
마시는 레드 와인이 화이트 와인보다 심장 마비 위험을 줄이는 데 더 효과적인 지에 대한 정보. 다음과 같은 검색어로 번역 될 수 있습니다. 와인과 적색과 흰색 및 심장 및 공격과 효과 문서가 명시된 정보 요구 사항을 충족하는 경우 문서가 관련이 있습니다. 단지 검색어에 모든 단어가 포함되어 있기 때문이 아닙니다.
다음은 가장 일반적인 테스트 컬렉션 및 평가 시리즈 목록입니다.
Cranfield 컬렉션. 이것은 정보 검색 효과의 정확한 양적 측정을 허용하는 선구적인 테스트 콜렉션 이었지만 요즘은 초등 파일럿 실험 이외에는 너무 작습니다. 1950 년대 후반 영국에서 수집 된이 보고서에는 공기 역학 저널 기사 1398 개, 225 개 검색어 집합, 모든 (검색어, 문서) 쌍에 대한 철저한 관련성 판단이 포함되어 있습니다. 텍스트 검색 회의 (TREC). 미국 국립 표준 기술 연구소 (NIST)는 1992 년부터 대규모 IR 테스트 베드 평가 시리즈를 운영해 왔습니다.이 프레임 워크에서는 다양한 테스트 컬렉션 범위에서 많은 트랙이 있었지만 가장 잘 알려진 테스트 컬렉션은 사용 된 테스트 컬렉션입니다 1992 년부터 1999 년까지의 TREC 평가에서 처음 8 개 TREC Ad Hoc 트랙을 대상으로했습니다.이 테스트 컬렉션은 총 189 만 개의 문서 (주로 뉴스 와이어 기사는 아니지만)를 포함하는 6 개의 CD와 450 가지 정보 요구 사항에 대한 관련성 판단을 포함합니다. 자세한 텍스트 구절에 명시되어 있습니다. 개별 테스트 컬렉션은이 데이터의 서로 다른 하위 집합에 정의됩니다. 초기 TREC는 각각 50 개의 정보 요구 사항으로 구성되어 있지만 서로 겹치지 않는 여러 문서 세트로 평가되었습니다. TRECs 6-8은 약 528,000 개의 newswire 및 Foreign Broadcast Information Service 기사에 대해 150 가지 정보 요구 사항을 제공합니다. 이것이 가장 크고 주제가보다 일관 적이기 때문에 미래의 작품에서 사용하기에 가장 적합한 서브 콜렉션 일 것입니다. 테스트 문서 모음이 너무 크기 때문에 철저한 관련성 판단이 필요하지 않습니다. 오히려 NIST 평가자의 관련성 판단은 TREC 평가에 입력 된 정보 시스템이 개발 된 최상위 $ k $ 사이에있는 문서에 대해서만 사용할 수 있습니다. 최근 몇 년 동안 NIST는 2 천 5 백만 페이지의 GOV2 웹 페이지 컬렉션을 포함하여 더 큰 문서 수집에 대한 평가를 수행했습니다. 처음부터 NIST 테스트 문서 모음은 이전에 연구원이 이용할 수 있었던 것보다 훨씬 큰 주문이었으며 GOV2는 현재 연구 목적으로 쉽게 사용할 수있는 가장 큰 웹 모음입니다. 그럼에도 불구하고 GOV2의 크기는 대형 웹 검색 회사가 색인을 생성 한 문서 모음의 현재 크기보다 여전히 2 배 이상 작습니다.
IR 시스템 용 테스트 콜렉션 (NTCIR).NTCIR 프로젝트는 동아시아 언어 및 교차 언어 정보 검색에 초점을 맞춘 TREC 컬렉션과 비슷한 크기의 다양한 테스트 컬렉션을 구축했습니다.이 언어 검색은 하나 이상의 다른 언어로 된 문서를 포함하는 문서 컬렉션에서 한 언어로 쿼리가 이루어집니다. 참조 : http://research.nii.ac.jp/ntcir/data/data-en.html CLEF (Cross Language Evaluation Forum). 이 평가 시리즈는 유럽 언어 및 교차 언어 정보 검색에 집중되어 있습니다. 참조 : http://www.clef-campaign.org/ 및 로이터 - RCV1. 텍스트 분류의 경우 가장 많이 사용되는 테스트 콜렉션은 Reuters-21578의 21578 개의 뉴스 기사 모음이었습니다. 13 장, 13.6 페이지를 참조하십시오. 최근에는 로이터 통신 (Reuters)이 806,791 건으로 구성된 훨씬 더 많은 로이터 코퍼스 1 권 (RCV1)을 발표했다. 4 장, 4.2 페이지를 참조하십시오. 규모와 풍부한 주석은 향후 연구를위한 더 나은 기반이됩니다. 20 뉴스 그룹. Ken Lang이 수집 한 또 다른 널리 사용되는 텍스트 분류 모음입니다. 이 사이트는 20 개의 유즈넷 뉴스 그룹 (뉴스 그룹 이름이 카테고리로 간주 됨)의 각 1000 개의 기사로 구성됩니다. 중복 된 기사를 제거한 후에는 일반적으로 사용되는 것처럼 18941 개의 기사가 포함됩니다.
정보를 제공해 주셔서 감사합니다. 이미 데이터 세트를 찾았습니다. 문제는 온톨로지 기반 시맨틱 검색을 평가하는 방법론이 무엇인지에 있습니다. 전통적인 평가 방법론은 평가를 수행하기에 적절하지 않습니다. – dd90p
데이터 세트에 정성적인 매개 변수가없는 경우 crowdsourcing을 사용해야하며 이는 내가 준 데이터 세트가 수행 한 것과 정확히 일치합니다. 그들은 실제 사용자에게 검색된 문서를 보여주고 피드백을 받았습니다. – Alikbar