2017-02-22 7 views
0

저는 R/Python을 사용하여 개별 쿼리에서 키 구문을 추출하려고합니다.컨텍스트를 기반으로 관련없는 쿼리를 확인하십시오

그러나 쿼리가 특정 컨텍스트에서 유효한지 여부를 감지 할 수있는 방법이 있습니까? 여기 예제 시나리오를 찾기 :

상황을 가정
Query1 = 'I need to order a birthday cake. Cherry topped vanilla cream over chocolate.' 
Query2 = 'I wish to have a butterscotch cake with caramel sauce on top.' 
Query3 = 'I need to throw my chocolate wrapper into the dustbin.' 

는 케이크 사용자 정의입니다, 이제 Query1, Query2이 유효 가정 해 봅시다,하지만 Query3가 없습니다. Query3은 분명히 케이크 사용자 정의에 관한 것이 아니고 처음 두 검색어는 케이크 사용자 정의에 관한 것입니다.

키 구문 추출 단계 전에 잘못된 쿼리를 제거하고 싶습니다. 취할 접근법에 대한 도움은 언제나 환영합니다.

감사합니다.

답변

1

일부 클러스터링을 전처리 단계로 생각할 수 있습니다. 클러스터의 쿼리가 관련성이 없도록 쿼리를 클러스터링합니다. 클러스터링을위한 쿼리를 비교하기 위해 TF-IDF 가중치를 사용하는 Bag-of-Word 모델을 사용하여 쿼리 표현을 생성 한 다음 코사인 유사성을 사용하여 유사한 쿼리를 찾습니다.

고급 접근 방식에 관심이 있다면 깊은 학습 기술을 생각해 볼 수 있습니다. 이러한 종류의 작업을 수행하도록 설계된 많은 심층 학습 기술이 있습니다. 하지만 일을 단순하게 유지하기 위해 심 신경 네트워크를 교육하여 쿼리/문장 표현을 생성 할 수 있습니다.

많은 사전 교육 모델이 존재하기 때문에 실제로는 필요하지 않습니다. 예를 들어 skip-thought vectors은 검색어에 대한 문장 표현 (벡터)을 생성 할 수 있습니다. 그런 다음이를 사용하여 클러스터링을위한 쿼리를 비교할 수 있습니다.

+0

정말 고마워요! 당신의 조언이 도움이되었습니다. – Sailesh