2017-10-22 4 views
0

팬더 DF 질문에 대한 작업 중 일부 팬더 데이터를 사용 가능한 형식으로 변환하여 스 캐터 플롯을 만드는 데 문제가 있습니다.팬더 데이터 프레임에서 산점도 작성

아래 코드는 내가 뭘 잘못하고 어떻게 해결할 수 있는지 알려주는 코드입니다. 내가 초보자이기 때문에 정직한 비판이 필요하다.

# Import Data 
df = pd.read_csv(filepath + 'BaltimoreData.csv') 

df = df.dropna() 
print(df.head(20)) 
# These are two categories within the data 
df.plot(df['Bachelors degree'], df['Median Income']) 

# Plotting the Data 
df.plot(kind = 'scatter', x = 'Bachelor degree', y = 'Median Income') 
df.plot(kind = 'density') 
+3

코드를 잊어 버려, 데이터 어디? 인쇄하고 (df.head (20)) 출력을 여기에 게시하십시오. –

+0

머리글을 추가 했으므로 처음 20 줄의 데이터를 볼 수 있습니다. – Brandon

+0

불행히도 컴퓨터에 액세스 할 수 없으므로 파일 경로에서 데이터를로드 할 수 없습니다. 이번에 문제가 해결 된 것으로 보이지만 앞으로 더 나은 답을 줄 수있는 [mcve]를 제공하는 방법을 살펴보십시오. ( df.dropna (축 = 0, 방법 = '어떤') plt.style.use ('ggplot') df.plot.scatter을 : 그것은 다음과 같습니다 있도록 –

답변

0

, 당신의 독립 변수와 종속 변수는 다음과 같습니다

import matplotlib.pyplot as plt 
import pandas 

plt.scatter(x=df['Bachelors degree'], y=df['Median Income']) 
plt.show() 
+0

다음과 같은 오류 메시지가 나타납니다 : 문자열을 부동으로 변환 할 수 없습니다 : '$ 37,678' – Brandon

+0

문자열로 형식화 된 중간 소득이 있습니다 - read_csv는 달러 기호를 감지하고 문자열로 작업한다고 가정합니다 (즉 텍스트). 단순히 CSV에서 숫자로 서식을 변경하기 만하면됩니다. – Johnnyh101

0

팬더의 scatter plot을 사용할 수 있습니다. 안양이 dataframe 및 x와 y입니다 아래와 같이 Y에 간단히 줄거리 X

import pandas 
import matplotlib.pyplot as plt 
plt.style.use('ggplot') 
df.plot.scatter(x='Bachelors degree', y='Median Income'); 
plt.show() 
+0

그래서 나는 코드에 약간의 조정을 plt.show() 그러나 NA/NaN 값을 포함하는 벡터로 인덱싱 할 수없는 오류가 여전히 발생합니다. – Brandon