4

나는이 추천 시스템을 구축하기 위해 무엇을 사용해야하는지에 대한 의견을 나에게 줄 수있는 간단한 방법으로 Hadoop에 추천 시스템을 구축 중이다.돼지 또는 마호트를 사용하는 추천 시스템

Apache pig 또는 Apache mahout을 사용하고 싶습니다. 내 데이터에

내가

은 그래서 당신은 어떤 기술 항목을 기반으로 사용자 기반 추천 시스템을 생산하기 위해 사용하는 날을 제안 해주십시오 수 c.s.v 형식으로 내 데이터가 난

book_id,name,publisher 
user_id,username 
book_id,user_id,rating 

가 오전 설정합니다.

답변

4

Apache Mahout은 협업 필터링 알고리즘을 기반으로 한 권장되지 않은 엔진을 제공합니다.

돼지로 당신은 그 알고리즘을 스스로 구현해야합니다 - 돼지 라틴어로, 다소 복잡한 작업이 될 수 있습니다.

3

내가 선호하는 방법은 아니지만 Hadoop에서 추천 엔진을 만드는 데 사용할 수있는 다른 제품은 Oryx입니다.

Oryx는 Sean Owen (공동 작성자 Mahout in Action 및 Mahout 코드 기반의 주요 공헌자)에 의해 작성되었습니다. 현재 최소 3 개의 알고리즘 (최소 2 진법, K- 평균 클러스터링 및 무작위 결정 포레스트) 만 있지만 ALS 알고리즘은 Hadoop 인프라의 최상위에 앉아있는 Collaborative Filtering 엔진을 사용하기가 쉽습니다.

데이터 세트에 대한 간략한 설명을 보면 완벽 할 것 같습니다. 이는 모델 생성 엔진 (전산 층)을 갖고, 그 3 개 개의 조건 중 하나에 기초하여 새로운 모델을 생성 할 수

1) 연령 레코드 번호
3 추가
2) 모델 세대 간 (시간)) 데이터 추가량

데이터 생성이 완료되면 권장 사항 (사용자 대 항목, 항목 대 항목, 숨은 권장 사항 등)을 제공하는 다른 Java 데몬이 있습니다 (서비스 계층) RESTful API를 통해. 새로운 세대의 모델이 생성되면 자동으로 해당 세대를 선택하여 제공합니다.

시즌 생성과 같은 문제를 해결할 수있는 역사적인 데이터의 고령화와 같은 모델 생성에는 몇 가지 좋은 기능이 있습니다 (그러나 책에 대해 이야기하는 경우 큰 문제는 아닙니다).

계산 계층 (모델 생성)은 HDFS를 사용하여 데이터를 저장/검색하고 작업 제어를 위해 MapReduce 또는 YARN을 사용합니다. 서빙 계층은 각 데이터 노드에서 실행할 수있는 데몬이며 계산 된 모델 데이터가 HDFS 파일 시스템에 액세스하여 API를 통해 표시됩니다.