2014-11-13 3 views

답변

0

두싯 몇 가지를 제외하고, 데이터를 읽을 하둡을 사용하여 NoSQL dbs 및 JDBC dbs를 지원합니다. Hadoop은 S3를 사용할 수 있습니다. S3 파일 시스템을 사용하도록 Hadoop을 구성해야하며 Mahout은 S3에 대한 읽기 및 쓰기 작업을 잘 수행해야합니다.

Redshift는 Postgres 및 JDBC/ODBC를 지원하는 데이터웨어 하우징 솔루션입니다. Mahout 0.9는 JDBC 호환 저장소에 저장된 데이터 모델을 지원하므로 아직 지원하지 않아야합니다.

Mahout v1 권장 사항은 Spark에서 실행되며 입력 및 출력은 기본적으로 텍스트입니다. 모든 I/O는 Hadoop을 통과합니다. 따라서 S3 데이터는 입력에 적합하지만 생성 된 모델은 텍스트이기 때문에 Solr 또는 Elasticsearch와 같은 검색 엔진을 사용하여 색인을 생성하고 쿼리해야합니다. 다른 저장소 (Redshift)에서 데이터를 가져 오기 위해 독자를 쉽게 작성할 수 있지만 모델을 데이터웨어 하우스에 저장하고 싶지는 않습니다. 모델을 solr로 인덱싱해야하고 초고속 검색 엔진 스타일 검색이 있어야하기 때문입니다.

+0

감사합니다. 내 데이터는 SQL Server에 있으며, redshift.we에서 데이터웨어 하우스를 구축하기 위해 Hadoop, EMR 클러스터를 사용하지 않습니다. 우리는 실시간 (또는 실시간에 가까운) 추천을 위해 mahout을 사용하고 싶습니다. 제 생각에 테크 팁 (Redshift, SQL server, S3, Mahout, R)을 알려주십시오. –

+0

NRT 권장 사항, Mahout v1 (Spark 사용) + Solr 또는 Elasticsearch를 사용하십시오. 런타임시 Solr에 대한 현재 사용자의 선호도는 매우 빠르며, 추천 할 항목의 정렬 된 목록을 반환합니다. Solr에서 색인을 생성하는 모델은 Mahout v1 "spark-itemsimilarity"에 의해 생성되었습니다. 참고 : http://mahout.apache.org/users/recommender/intro-cooccurrence-spark.html 여기에서 프레젠테이션 및 블로그 게시물 : https://occamsmachete.com/ml 제목에 대한 짧은 책 : https://www.mapr.com/practical-machine-learning – pferrel