2009-10-20 3 views
7

나는 추천 시스템을 구축하는 데 놀고 싶습니다. 그 말은 사용자가 게시 한 환경 설정 및/또는 리뷰를 살펴본 다음 netflix 또는 amazon이 사용하는 것과 비슷한 추천을 만드는 알고리즘을 의미합니다.추천 시스템은 어디에서 확인할 수 있습니까?

이런 식으로 작성하는 방법을 배우기에 좋은 자료는 무엇입니까? 어디에서 시작해야합니까?

답변

5

Netflix Prize 및 해당 discussion forum에있는 위키 백과 페이지를 확인하십시오. 또한, 다소 관련이있는 2009 GitHub Contest은 다수의 다른 추천 엔진에 대한 전체 소스 코드의 좋은 소스입니다. 그리고 분명히 괜찮은 링크가있는 Wikipedia page on the topic itself도 있습니다.

직접 작성을 시작하면 코퍼스를 사용하는 것이 좋습니다. 실제로 Netflix Prize's data set을 사용하는 것이 좋습니다. 데이터 세트를 두 조각으로 조각하십시오. 첫 번째 조각을 훈련시키고 두 번째 조각에 알고리즘을 채점하십시오.

부칙 : 이런 종류의 다소 관련 무서운 응용 프로그램이 predicting demographic information입니다 : 사용자의 성별, 연령, 가구 소득, IQ, 성적 취향 등 당신은 아마 넷플릭스 상으로 이러한 특성의 대부분을 할 수 상당히 높은 정확도의 데이터 세트. 다행히도 everyone in that dataset is just a number.

+0

무엇이 무서운가요? 마케팅 담당자는 브라우저, IP 및 HTTP 헤더의 기타 정보를 기반으로 항상 사용자를 예측하려고합니다. 실제 정보가 아니라 "정보가 담긴 고정 관념"(조건부 베이 즈)입니다. – isomorphismes

+1

데이터가 '익명'으로 표시 되었기 때문에 실제로 아니 었습니까? 사용자가 자신의 데이터를 공유하도록 선택하지 않으면 특히 나쁩니다. –

+0

내가 무슨 뜻인지 정확히 이해하지 못할 수도 있습니다. 사용자 2871875의 인구 통계 학적 특성을 정확히 추측 할 수있어 익명 성을 침해했다고 말하고 있습니까? – isomorphismes

3

collaborative filtering (Amazon.com에서 사용)에 대한 다양한 권장 알고리즘을 구현하는 Python 라이브러리 pysuggest을 살펴보십시오.