나는 GPA 점수가 있고 신원 보증 기간 이후에 고용되었거나 해고 된 지 여부에 관계없이 신임 대학원 직원의 데이터 세트를 보유하고 있습니다. 나는 대학 평점이 고용이나 해고에 중대한 영향을 미치는지 분석하도록 사장에게 요청 받았다. 때로는 대학 순위와 같은 추가 기능도 포함될 수 있습니다. 현재 보스는 데이터 과학 및 기계 학습에 관심이있는 날입니다. 그러나 데이터 분석에 대한 사전 경험이 없었습니다. 그래서이 문제에 어떻게 접근 할 수 있을지 생각해보십시오. 어떻게해야할까요? 기술적 인 전문 용어가 환영받을 정도로 프로그래밍 배경 지식이 있습니다. (파이썬 알아요).데이터 분석 접근법
답변
GPA, University_ranking 등을 특징으로하는 신규 졸업생의 취업 상태를 예측하려고합니다.
귀하의 문제는 귀하의 출력/발사로 고용해야하기 때문에 "이진 분류 문제"로 간주 될 수(0 또는 1)
Training_set : 당신은 기능 설정 훈련을 만들 필요가 우선 및 그들의 실제 출력.
분석 특징 :
train = pd.read_csv('../input/train.csv')
print (train[["GPA", "Employment_status"]].groupby(['GPA'], as_index=False).mean())
알고리즘 훈련 : 데이터가 같은 것을 사용하여 출력에 영향을 미치는 방법 한번에 분석 할을 바이너리 해결하는 데 사용할 수있는 다양한 기계 학습 알고리즘이 있습니다 SVM, 의사 결정 트리, KNN과 같은 분류 문제. 출력 중 하나와 함께 분포를 맞출 수있는 이상 탐지를 수행 할 수도 있습니다. 사용하기 쉽고 다양한 알고리즘을 제공하기 때문에 sklearn 라이브러리를 사용하십시오.
sklearn에 대해 자세히 알아 보려면 this을 확인하십시오.
테스트 : 마지막으로 테스트 세트로 모델을 테스트하고 정확도를 계산하여 모델이 데이터에 어떻게 맞는지 확인하십시오. 그들은 기계를 시작 누구나 이해하기 쉽게 앤드류 NG로하여 강의 밖으로
는확인 learning.Find 그것을 here
데이터 시각화 :
Kaggle가 최고의 플랫폼 중 하나입니다 새로운 접근법과 알고리듬 알아보기 this 링크는 홍채 데이터 세트에서 다른 데이터 시각화 도구를 사용하는 방법에 대한 정보를 제공합니다.
데이터 시각화에 대해 자세히 알아 보려면 this MOOC를 확인하십시오.
데이터 시각화를 통해 기능의 상관 관계를 이해하는 데 도움이됩니다.
여기에서, 당신은 근본적으로 대학 평점, 대학 순위 등이 유예 기간 후에 고용되거나 해고되는 것에 큰 영향을 미치는지 예측하려고합니다. 기본적으로 이진 분류 문제입니다 (Binary Classification Best Tutorial에 대한 전체 자습서 용). @ janu777에서 제공하는 접근법은 정확합니다. 그 안에 몇 가지 추가 정보를 추가하고 싶습니다. 이러한 문제를 해결하기위한 단계는
Data Exploration(include variable identifications)
Data Cleaning
Feature Engineering(Watching correlations kind of property among features)
Model Building and Training
Doing Predictions
은 기본적으로 파이썬 측면에서 이러한 라이브러리를 사용,
Pandas
Scikit Learn
Matplotlib
numpy
Sklearn
Statsmodelapi
데이터 탐사입니다 : 첫째는 지난 몇 년 동안 데이터가 있어야합니다 (여부 이전 직원이었다 고용 또는 해고) 기차 세트로. 대부분의 유명한 모든 누락 된 값을 드롭하는 것입니다, 당신의 선택에 따라
import pandas as pd
import numpy as np
import matplotlib as plt
df = pd.read_csv("../trainset.csv") #Reading the dataset in a dataframe
df.describe()
데이터 정제 지금이 단계에서
당신은 당신의 데이터 값과 모든 누락보고해야하고 치료를 할 수있다 나는 기차 세트가 대학 GPA와 대학 순위 기능 변수 인 3 변수가 있다고 가정하고
df.dropna(axis=0, how='all')
그래서 당신은이를 사용할 수 있습니다. 타겟 변수가 고용/해고되었습니다 (1 또는 0). 예측 변수와 대상 변수 사이의 상관 관계를 사용해야하며 시각화가 도움이 될 것입니다.
trainingdata['GPA'].astype('float64').corr(trainingdata['target'].astype('float64'))
또는
# importing the required module
import matplotlib.pyplot as plt
# x axis values
x = [1,2,3] # your feature variable
# corresponding y axis values
y = [2,4,1] # your target variable
# plotting the points
plt.plot(x, y)
# naming the x axis
plt.xlabel('x - axis')
# naming the y axis
plt.ylabel('y - axis')
# giving a title to my graph
plt.title('My first graph!')
# function to show the plot
plt.show()
모델 구축 및 예측과는 매우 중요한 단계는 그 피팅, 지금 당신은 당신의 문제에 대한 모델을 만들 필요하고 이러한 알고리즘 Sklearn algo을 사용할 수 있습니다 (당신은 적용해야 Randomforest, lineardiscriminate, decisiontree, knn, svm 등의 알고리즘을 선택하고 좋은 점수를주는 알고리즘 만 선택하십시오. 샘플 코드는
입니다. 테스트 데이터에 지금 당신이 예측을 할 수from sklearn.ensemble import RandomForestClassifier
#Building random forest classifier model
def random_forest_classifier(features, target):
"""
To train the random forest classifier with features and target data
:param features:
:param target:
:return: trained random forest classifier
"""
clf = RandomForestClassifier()
clf.fit(features, target)
return clf
이렇게 예측, 같은 샘플 코드는
predictions = randomforestmodelis.predict(test_x)
for i in range(0, 5):
print("Actual outcome :: {} and Predicted outcome :: {}".format(list(test_y)[i], predictions[i]))
#print("Train Accuracy :: ", accuracy_score(train_y, randomforestmodelis.predict(train_x)))
print("Test Accuracy :: ", accuracy_score(test_y, predictions))
문제를 해결해야한다.
답변 해 주셔서 감사합니다. 문제에 대한 새로운 정보가 거의 없습니다. 이를 수행하는 진정한 목표는 집행 유예 후 압도적으로 GPA가 높은 사람들이 고용된다는 사실을 보여줌으로써 GPA를 고용의 벤치 마크로 유지함으로써 비용을 절감 할 수 있는지를 경영진에게 증명하는 것입니다. 이것은 단지 통계적 시각화 문제가 아니며 예측 (기계 학습)과 관련이 없습니다. –
그런 경우에는 상관 분석법을 사용하여 피쳐 분석을 수행해야하며 matplotlib와 같은 시각화를 사용할 수 있습니다. –
링크 또는 다른 리소스를 공유하여 기능 분석 및 상관 관계를 학습 할 수 있다면 배우는 것이 도움이 될 것입니다. –
답변 해 주셔서 감사합니다. 문제에 대한 새로운 정보가 거의 없습니다. 이를 수행하는 진정한 목표는 보호 관찰 후에 GPA가 높은 사람들이 압도적으로 고용되고 있음을 보여줌으로써 GPA를 고용의 벤치 마크로 유지함으로써 비용을 절감 할 수 있는지를 경영자에게 입증하는 것입니다. 이것은 단지 통계적 시각화 문제가 아니며 예측 (기계 학습)과 관련이 없습니다. –
그러면 기능 분석 단계 만 수행하면됩니다. GPA를 특정 임계 값보다 높은 값에 대해 높게, 그 이하의 값에 대해 낮은 것으로 분류하고 영향을 미치는 비율을 확인한 다음 플로팅하여이를 시각화 할 수도 있습니다. – janu777
링크 또는 다른 리소스를 공유하여 기능 분석 및 상관 관계를 학습 할 수 있다면 배우는 데 도움이 될 것입니다. –