2014-01-10 1 views
0

해당 웹 페이지를 구문 분석하여 게임이 '아케이드'인지 '스포츠'인지 '전략'인지 어떻게 결정할 수 있습니까? 나는 웹 페이지에서 호스팅되는 작은 플래시 게임에 대해 이야기하고 있습니다.웹 페이지에서 게임 장르를 결정하는 방법은 무엇입니까?

예를 들어,이 웹 페이지를보십시오 : http://www.miniclip.com/games/ski-safari/en/ 또는 http://www.2dplay.com/the-last-dino/the-last-dino-play.htm

는 '분류'어떤 종류의 작업을 수행하기 위해 존재 서비스가 있습니까? 도움이되는 기존 NLP 알고리즘이 있습니까?

+0

질문이 너무 넓습니까? 나는 이것이 매우 드물게 발생하는 문제라고 생각했다. 스택 오버플로는 일반적인 문제에 대한 제안에 대해서만 의미가 있습니까? – mynk

답변

1

웹 페이지에서 관련 텍스트를 추출하고 bag of words approach을 사용하여 분류 할 수 있습니다. 가장 단순한 경우, 각 게임 카테고리와 키워드 목록을 정의하면됩니다. 카테고리에 대한 키워드가 많을수록 해당 카테고리에 속할 확률이 높아집니다.

더 정교한 접근법은 분류 알고리즘 (예 : Naive Bayes)과 텍스트 관련 기능 (예 : tf-idf)을 살펴보십시오.

페이지에서 관련 텍스트를 추출하는 것이 중요합니다. 예를 들어 페이지에이 특정 게임 및 관련 뉴스 목록 (다른 게임 설명)에 대한 몇 가지 단어가 포함되어있는 경우 관련 뉴스의 발췌 문장으로 인해 정확성이 크게 저하 될 수 있습니다.

+0

감사합니다. @ffriend. 이것은 확실히 나에게 시작을 준다. – mynk