-1

일부 열이 Date이고 다른 것이 상태, 부서 이름, 국가 이름과 같은 categorical Data 인 큰 날짜 집합이 있습니다.그래프와 데이터 및 문자열 처리 방법

graphlab.linear_regression.create 메서드를 호출 할 때 그래프 랩에서이 데이터를 처리하는 방법은이 데이터를 사전 처리하여 숫자로 변환하거나 직접 graphlab에 제공해야합니까?

+0

그렇게하는 동안 발생한 모든 오류가 있습니까? – Dark

+0

@Dark 나는 graphlab이 데이터를 처리하는 방법을 이해하려고 노력하고 있습니까? 그것은 문자열과 날짜 데이터를 범주 값으로 변환합니까? –

답변

1

Graphlab은 테이블 형식 및 그래프 기반 데이터 집합을 계산하는 데 주로 사용되며 높이가 scalabilityperformance입니다. graphlab.linear_regression.create에는 graphlab에 데이터 유형을 이해하고 결과를 최적화하는 가장 적합한 방법이 linear regression 인 내장 된 기능이 있습니다. 예를 들어, 대상 및 기능 모두의 숫자 데이터의 경우 대부분 graphlab은 선형 회귀의 Newtons Method을 사용합니다. 마찬가지로 데이터 집합에 따라 필요성을 이해하고 그에 따라 방법을 제공합니다.

이제 전처리에 대해 graphlab은 어떤 학습을하기 전에 올바르게 구문 분석되어야하는 학습에만 SFrame을 사용합니다. SFrame을 생성하는 동안 미처리 및 오류 생성 데이터는 항상 반영되고 오류가 발생합니다. 따라서 학습을 진행하려면 깨끗한 데이터가 필요합니다. SFrame이 데이터를 수락하고 원하는 학습 및 학습 목표를 위해 선택한 목표 및 기능을 사용하는 것이 좋지만 pre-processingcleaning data이 항상 권장됩니다. 또한 항상 학습 알고리즘을 수행하기 전에 feature engineering을 수행하고 학습하기 전에 데이터 유형을 재정의하는 것이 항상 올바른 방법으로 권장됩니다.

Graphlab에서 데이터가 어떻게 취급되는지에 관해서는, 나는 그것이 달려 있다고 말할 것입니다. 일부 데이터 세트는 표 형식이며 일부는 그래프 구조로 처리됩니다. Graphlab은 이외의 다른 라이브러리에서 시간과 자원을 많이 소비하며 regression treeboosted classifiers이라는 개념을 사용하면 매우 잘 수행됩니다.

은 나를 위해, graphlab 아주 잘 심지어 나무 구조화 된 데이터, graphlab 수행을 위해, 내가 노드와 엣지 18 반복과 boosted tree classifier의 데이터 세트도 매우 확장 성이 시간에 완벽한 일을했고, 내가 말을해야 곳 추천 엔진을 만드는 아주 잘하는 동안 수행 . 이 대답이 도움이되기를 바랍니다.