텍스트 콘텐츠를 기반으로하는 방법 기사의 목록을 제안합니다.

내 고객과 지원 직원간에 20,000 개의 메시지 (전자 메일 및 실시간 채팅 조합)가 있습니다. 나는 또한 내 제품에 대한 지식 기반을 가지고있다.텍스트 콘텐츠를 기반으로하는 방법 기사의 목록을 제안합니다.

종종 고객이 묻는 질문은 매우 간단하며 지원 직원이 올바른 지식 기반 기사를 가리키고 있습니다.

지원 담당자가 시간을 절약하기 위해 초기 사용자의 지원 요청에 따라 관련성이 높은 기사 목록을 직원에게 보여 주려고합니다. 이렇게하면 기술 자료를로드하고 기사를 수동으로 검색하는 대신 링크를 복사하여 도움말 문서에 붙여 넣기 만하면됩니다.

내가 조사해야 할 솔루션이 궁금합니다. 생각의

나의 현재 라인은 기존 데이터 분석을 실행하고 텍스트 분류 방법 사용하는 것입니다에 대한 링크 응답이 있는지, 각 메시지에 대해

을 기사
예, 핵심어 (Microsoft인지 서비스)를 추출하십시오.
TF-IDF?
각 구문을 핵심 문구 집합에 속하는 '분류'로 처리하십시오.
일부 감독 된 기계 학습을 사용하여 벡터 기계가 어떤 '분류, 일명 기사 작성 방법'을 결정할 지 예측할 수 있습니다. 새로운 지원 티켓에서.
시스템을 더 스마트하게 만들기 위해 새로운 응답을 다시 세트에 공급하십시오.

내가 복잡한 것을 끝내면 확실하지 않습니다. 이것이 어떻게 행해지는지에 대한 조언을 주시면 감사하겠습니다.

추신 : 기술 자료 검색 쿼리에 '핵심 문구'를 그냥 내버려 두는 단순한 접근 방식은 도움이되는 내용이 전자 메일 또는 실시간 채팅에서 질문을 표현하는 방식과 다르다는 점에서 좋지 않은 결과를 낳았습니다.

출처

2017-02-04 apexdodge

이것은 내가 방금 얻은 기계 학습 이론에 대한 흥미로운 응용 프로그램입니다! – JackCColeman

각 FAQ는 스팸이 아닌 스팸이 아닌 단일 기능 분류 자와 반대되는 기능인 것을 제외하고는 "스팸"분류기의 줄에 따라 간단한 분류기가 작동 할 수 있습니다.

대부분의 스팸 분류 기준은 단어/구문 사전으로 시작됩니다. 당신은 이미 순진한 접근법으로 시작했습니다. 그러나 귀하의 접근 방식과 달리 스팸 분류기는 텍스트 검색 이상의 역할을합니다. 본질적으로 스팸 분류기에서는 고객 전자 메일의 각 단어에 가중치가 부여되고 가중치의 합은 메시지가 스팸인지 아닌지를 나타냅니다. 이제이를 FAQ와 같은 많은 기능으로 확장하십시오. 즉, FAQ1 또는 not-FAQ1, FAQ2 또는 not-FAQ2 등입니다.

지원 담당자는 전자 메일에 필요한 FAQ를 쉽게 식별 할 수 있으므로 감독 학습 알고리즘을 사용하는 것이 적절할 수 있습니다. 미스 분류 오류의 영향을 줄이려면 지원 담당자에게 고객의 전자 메일과 함께 컴퓨터 생성 응답을 제시하고 지원 담당자가해야 할 모든 응답을 승인하거나 수정하는 응용 프로그램을 고려하십시오. 응답을 수정하면 교육 세트에 새로운 항목이 생깁니다.

지원 벡터 머신은 기계 학습을 구현하는 한 가지 방법입니다. 그러나 아마도 문제를 먼저 확인한 후 너무 복잡한 방법을 사용하기 전에 가능한 한 간단한 방법으로 문제를 해결하는 과정에서이 솔루션을 제안하는 것이 좋습니다.멀티 기능 스팸 분류기가 작동하는 이유는 무엇보다 다른 시간과 비용을 투자해야하는 이유는 무엇입니까?

마지막으로, 시스템에 따라 이것은 내가하고자하는 일입니다.

출처

2017-02-06 02:13:07 JackCColeman

텍스트 콘텐츠를 기반으로하는 방법 기사의 목록을 제안합니다.

답변

관련 문제