2017-11-15 9 views
0

나는 짹짹 ID, 짹짹, 언어 및 사용자 이름과 같은 속성과 함께 짹짹의 컬렉션을 MySQL 데이터베이스에 저장해야하는 응용 프로그램을 만들고 있습니다. PhpMyAdmin에서 CSV의 Twitter 데이터를 구성하는 방법

내가 목표로하고있는 무슨의 이미지입니다 : https://i.imgur.com/1EC3ICc.png

이 작업을 수행하려면, 내가 JSON 파일에 트위터에 트윗을 100 + 수집 파이썬에서 프로그램을 만들었습니다. 그런 다음 Microsoft Excel을 사용하여 JSON 파일을 CSV 파일로 변환했습니다. 이 후 PHPMyAdmin에서 CSV 파일을 테이블로 가져 오면 다음 결과가 나타납니다. https://i.imgur.com/tLkIA0T.png(10 행 x 185 열).

위의 문제는 일부 트윗에 미디어와 같은 데이터가 더 많아서 데이터가 여러 열로 확장된다는 것입니다.

어떻게해야합니까? 빨리이 테이블을 정리하면 테이블에 원하는 속성 만 있습니다. 스크래치로 돌아가서 파이썬 코드에서 작업해야합니까, 아니면 테이블/CSV 파일에서 제거 할 수 있습니까?

답변

0

짹짹이 JSON 형식으로 구문 분석되고 일부 필드 만 필요하면 JSON 모듈을 사용하여 필요한 필드를 구문 분석하고 Pandas 모듈을 사용하여 MySQL에 쓰기 위해 구조화 된 테이블로 변환하는 것이 좋습니다. 예 :

import json 
import pandas as pd 

#Open and read the text file where all the Tweets are 
with open('tweets.txt') as f: 
    tweets = f.readlines() 
#Convert the read Tweets into JSON object 
tweets_json = [json.loads(tweet) for tweet in tweets] 
#Convert the list of Tweets into a structured dataframe 
df = pd.DataFrame(tweets_json) 
#Finally choose the attributes you need 
df = df[['created_at', 'id', ...]] 
#To write table into MySQL 
df.to_sql(...) 
+0

감사합니다. Suleiman! Omo dada, 나는 이것을 곧 풀어보고 그것이 어떻게 작동하는지 알려줄 것이다. –

+0

코드를 구현하는 데 문제가 발생하여 솔루션이 효과적인지 아직 모르겠다. https://stackoverflow.com/questions/47334968/pandas-keyerror-value-not-in-index 좋은 해결책 같이 나는 당신의 시간을 평가한다. 감사! –