2017-04-26 15 views
0

랜서 교육을 위해 csv 파일을 작성합니다 Watson 검색 및 순위가 많은 서비스, 많은 행 [query, "id_doc", "relevance_score", ...] .
나는이 파일의 구조에 대한 두 가지 질문이 있습니다
IBM Watson 검색 및 순위 지정 서비스 - 부울 연산자

  1. 내가 쿼리 단어 "없습니다"가 포함되어 있는지 여부에 따라, 두 개의 문서를 구별해야합니다. 보다 구체적으로 :
    • 는 본체와 제 문서의 제목에 따라서 "NOT 관리자"

포함될 "관리자"

  • 몸체와 상기 제 문서의 제목을 포함 쿼리가 "관리자입니다. 어떻게해야합니까?" 첫 번째 문서는 올바르지 만 두 번째 문서는 올바르지 않습니다. "나는 관리자가 아닙니다 ..."와 같은 쿼리 인 경우 두 번째 문서는 올바르지 만 첫 번째 문서는 정확하지 않습니다.
    적절한 방법으로 쿼리를 작성하는 데 사용할 수있는 특별한 구문이 있습니까? 어쩌면 부울 연산자를 사용하고 있을까요? 이 파일은 이러한 종류의 필터를 적용 할 수있는 적절한 위치입니까?

    2.이 서비스는 또한 계급을 훈련시키는 웹 인터페이스를 가지고 있습니다. 이 사이트에서 사용 된 등급은 1 -> 틀린 답 2 -> 주제와 관련이 있지만 3 -> 좋은 답변이지만 4> 완벽한 답을 얻을 수 있습니다.
    이 파일에 사용 된 관련성 점수는 웹 인터페이스와 동일합니까?

    감사합니다.

  • 답변

    1

    적절한 방법으로 쿼리를 작성하는 데 사용할 수있는 특별한 구문이 있습니까? 어쩌면 부울 연산자를 사용하고 있을까요? 이 파일은 이러한 종류의 필터를 적용 할 수있는 적절한 위치입니까?

    이 파일은 필터를 사용하기에 적절하지 않습니다. 학습 데이터는 Solr의 검색 결과 순서를 최적화 할 때 ranker가주의해야 할 어휘 중복 형식 유형을 파악하는 데 사용됩니다 (자세한 내용은 여기에서 설명을 참조하십시오. watson retrieve-and-rank - manual ranking).

    • 은 첫 번째는 는 질문 텍스트 수 있습니다 "나는 매니저이야 어떻게 내가 뭔가를해야합니까."

      당신이 확실히과 같이 훈련 데이터에 적어도 두 개의 행을 추가 할 수 있습니다 말했다 해당 올바른 doc id 및 양의 정수 관련 레이블과 함께 표시됩니다.

    • 두 번째 행
    • 는 질문 텍스트 을 가질 수 있습니다 "나는 하지 관리자입니다. 내가 뭔가를 할 방법"비 관리자에 대한 응답 문서 ID와 양의 정수 관련성 라벨과 함께을.

    이러한 예제가 충분하면 ranker는 bigram 어휘 중복 기능에주의를 기울이는 것이 좋습니다. 이것이 작동하지 않는다면, 관리자 대 이 아닌 관리자 관리자를 사전 감지하고 적절한 필터를 적용 할 수는 있지만 별도의 매개 변수 (fq?) ... train.py을 수정하여 필터 쿼리를 적절히 전달해야 할 수도 있습니다. 기본값 인 train.py은 전체 쿼리를 가져와 q을 통해 /fcselect 끝점으로 전달합니다.

    이 파일에서 사용 된 관련성 점수는 웹 인터페이스와 동일합니까?

    웹 인터페이스는 1-4 별 등급을 사용하여 데이터 수집을 위해 UI를 향상 시키지만 순위 목록에 대한 교육 데이터를 생성 할 때 별 등급을 더 작은 관련성 레이블 배율로 압축합니다. 나는 압축 나쁜 답변 (즉, 등급 < 3) 0의 관련성 레이블을 제공하고 있으므로 그대로 UI 팀 어쩌면 누군가가 추가 할 수 있지만 효과적으로 (평가의 3 단계가 그보다 높은 등급을 통과 생각 필요하다면 세부 사항에 대한 설명). 입니다. 나쁜 대답0이라는 관련 레이블을받습니다.