2016-07-27 3 views
3

나는 현재 상당한 크기의 데이터 세트를 다루는 나의 논문을 연구하고있다 : ~ 4mln 관측과 ~ 260ths 특징. 체스 게임의 데이터 세트입니다. 대부분의 기능이 플레이어 더미 (각 색상 당 130k)입니다.무작위적인 숲 분류를 수행하기 위해 큰 데이터 다루기

하드웨어 및 소프트웨어는이 컴퓨터에 약 12GB의 RAM이 있습니다. 나는 파이썬 3.5에서 모든 일을하고 있으며 주로 팬더와 scikit-learn 패키지를 사용합니다.

제 문제는 분명히이 양의 데이터를 RAM에로드 할 수 없다는 것입니다. 내가 할 수있는 일은 더미 변수를 생성 한 다음 데이터베이스를 수천 또는 그 이상의 청크로 슬라이스하고, 임의 포리스트를 적용하고 결과를 다시 집계하는 것입니다.

그러나 이렇게하려면 메모리 변수로 인해 수행 할 수없는 더미 변수를 먼저 만들 수 있어야합니다 (예 : 스파 스 행렬을 사용하더라도). 이론적으로는 데이터베이스를 먼저 슬라이스하여 더미 변수를 만들 수 있습니다. 그러나 그 효과는 다른 조각에 대해 다른 기능을 갖게 될 것이므로 그러한 결과를 집계하는 방법을 잘 모르겠습니다.

내 질문 : 1. 어떻게 너희들은이 문제를 접근 할
? 데이터의 다른 "덩어리"에 다른 기능을 가지고 있음에도 불구하고 내 추정 결과를 "병합"할 수있는 방법이 있습니까?
2. 아마도이 문제는 서버를 임대함으로써 피할 수 있습니다. 해당 서비스의 평가판이 있습니까? 이 작업을 완료하는 데 CPU/RAM이 얼마나 필요한지 정확히 알지 못합니다. 당신의 도움에 대한

덕분에, 조언, 어떤 종류는 이해할 수있을 것이다 :

+1

두 번째 질문 : 아마 AWS 학생 프로그램이 흥미로울 수 있습니다. https://aws.amazon.com/education/awseducate/. –

+0

명백하게 나의 uni는 그들의 전자 메일 주소를 망쳤고 나의 응용 프로그램은 insta-declined가된다. 그러나 나는 그들과 접촉하려고 노력할 것이고, 내가 할 수있는 것을 볼 것이다, 고마워! :) – JohnnyQ

답변

4

난 당신이 CloudxLab 시도해 제안했다.

무료는 아니지만 매우 적당합니다 (한 달에 25 달러). HDFS, Map-Reduce, Hive, Pig, Kafka, Spark, Scala, Sqoop, Oozie, Mahout, MLLib, 사육사, R, Scala 등과 같은 다양한 도구를 실험하기위한 완벽한 환경을 제공합니다. 많은 인기 트레이너가 CloudxLab .