일부 열이 Date
이고 다른 것이 상태, 부서 이름, 국가 이름과 같은 categorical Data
인 큰 날짜 집합이 있습니다.그래프와 데이터 및 문자열 처리 방법
graphlab.linear_regression.create
메서드를 호출 할 때 그래프 랩에서이 데이터를 처리하는 방법은이 데이터를 사전 처리하여 숫자로 변환하거나 직접 graphlab에 제공해야합니까?
일부 열이 Date
이고 다른 것이 상태, 부서 이름, 국가 이름과 같은 categorical Data
인 큰 날짜 집합이 있습니다.그래프와 데이터 및 문자열 처리 방법
graphlab.linear_regression.create
메서드를 호출 할 때 그래프 랩에서이 데이터를 처리하는 방법은이 데이터를 사전 처리하여 숫자로 변환하거나 직접 graphlab에 제공해야합니까?
Graphlab
은 테이블 형식 및 그래프 기반 데이터 집합을 계산하는 데 주로 사용되며 높이가 scalability
및 performance
입니다. graphlab.linear_regression.create
에는 graphlab
에 데이터 유형을 이해하고 결과를 최적화하는 가장 적합한 방법이 linear regression
인 내장 된 기능이 있습니다. 예를 들어, 대상 및 기능 모두의 숫자 데이터의 경우 대부분 graphlab
은 선형 회귀의 Newtons Method
을 사용합니다. 마찬가지로 데이터 집합에 따라 필요성을 이해하고 그에 따라 방법을 제공합니다.
이제 전처리에 대해 graphlab
은 어떤 학습을하기 전에 올바르게 구문 분석되어야하는 학습에만 SFrame
을 사용합니다. SFrame
을 생성하는 동안 미처리 및 오류 생성 데이터는 항상 반영되고 오류가 발생합니다. 따라서 학습을 진행하려면 깨끗한 데이터가 필요합니다. SFrame
이 데이터를 수락하고 원하는 학습 및 학습 목표를 위해 선택한 목표 및 기능을 사용하는 것이 좋지만 pre-processing
및 cleaning data
이 항상 권장됩니다. 또한 항상 학습 알고리즘을 수행하기 전에 feature engineering
을 수행하고 학습하기 전에 데이터 유형을 재정의하는 것이 항상 올바른 방법으로 권장됩니다.
Graphlab
에서 데이터가 어떻게 취급되는지에 관해서는, 나는 그것이 달려 있다고 말할 것입니다. 일부 데이터 세트는 표 형식이며 일부는 그래프 구조로 처리됩니다. Graphlab은 이외의 다른 라이브러리에서 시간과 자원을 많이 소비하며 regression tree
및 boosted classifiers
이라는 개념을 사용하면 매우 잘 수행됩니다.
은 나를 위해, graphlab
아주 잘 심지어 나무 구조화 된 데이터, graphlab
수행을 위해, 내가 노드와 엣지 18 반복과 boosted tree classifier
의 데이터 세트도 매우 확장 성이 시간에 완벽한 일을했고, 내가 말을해야 곳 추천 엔진을 만드는 아주 잘하는 동안 수행 . 이 대답이 도움이되기를 바랍니다.
그렇게하는 동안 발생한 모든 오류가 있습니까? – Dark
@Dark 나는 graphlab이 데이터를 처리하는 방법을 이해하려고 노력하고 있습니까? 그것은 문자열과 날짜 데이터를 범주 값으로 변환합니까? –