2017-02-13 5 views
0

소셜 미디어 게시물 (짧은 텍스트)을 영화/TV 프로그램의 데이터베이스와 일치시키고 싶습니다. 데이터베이스에는 영화 또는 TV 쇼 이름, 캐릭터 및 배우에 대한 정보가 포함되어 있습니다. 입력 된 텍스트에 충분한 증거가있는 경우 알고리즘이 텍스트를 속한 영화로 분류하거나 충분한 증거가없는 경우 아무 것도하지 않겠습니다.기계 학습이없는 텍스트 분류

저는 기계 학습 접근법에 익숙하지만 훈련 용 샘플과 한정된 수의 범주가 필요합니다. 내 알고리즘은 컨텍스트를 사용할 수 있어야하며 새 컨텐트에 대해 확장 가능해야합니다. 예를 들어, 기계가 "해리포터"영화를 인식하는 것을 배우지 만, "환상적인 짐승과 어디에서 찾을 수 있습니까?"라는 것을 인식하지 못하게합니다.

나는 이것에 대한 해결책이 부분 문자열 매칭이라는 것을 알고 있지만 이러한 종류의 문제에 대한 몇 가지 일반적인 지침에 대해 올바른 지침을 지적하고자한다. 나는 또한 맞춤법이 틀린 단어를 인식하고 특정 성냥에 더 많은 무게를 할당하고 다른 사람들에게 덜 관심이 있습니다.

또한 사이드 노트로 SQLite 또는 외부에서 문자열 일치를 수행해야합니까? 이 사건에 대한 내 추측은 바깥에 있지만, 나는 단지 확신하고 싶다.

도움을 주셔서 감사합니다.

+0

당신은 아마도 IBM AlchemyLanguage API를 사용할 수있는 정보 검색 시스템 을 기반으로 효율적인 퍼지 로직의

구현. 그것은 텍스트를 취할 수 있고 개념을 탈출 할 수 있습니다. 예를 들어 "Love Robert Deniro in Heat"는 Robert DeNiro, Heat, Al Pacino 및 Michael Mann을 반환합니다. 영화를 식별 할 수있는 4 가지 핵심 구성 요소와 함께 가져온 데이터베이스에 대한 링크가 포함되어 있습니다. – Chris

+0

제안 해 주셔서 감사합니다. Watson과 함께 일할 줄은 몰랐습니다. 나는 그것을 즉시 체크 아웃 할 것이다. – humma4

답변

0

당신이 찾고있는 것은 퍼지 규칙 기반 정보 검색 시스템입니다. 엔티티/문서의 지식 기반에 대한 질의와 일치시키기 위해 약간의 수작업 규칙과 퍼지 매칭 (일반적으로 Lucene 사용)이 필요합니다.

는 예를 들어이 문서를 참조하십시오 : https://arxiv.org/pdf/1503.03957.pdf