옐프 데이터 세트 챌린지 웹 사이트 (https://www.yelp.com/dataset_challenge)에서 파일을 열려고했습니다. 나는 그것을 성공적으로 끝냈다. 그러나 확장자가 없기 때문에 파일을 열 수 없다. 약 4GB입니다. JSON 파일일지도 모른다고 생각 했었습니다. 과거에 검색했을 때 과거에 있었던 것이기 때문입니다. 그러나이 방법을 열거 나 CSV로 변환하는 방법을 알 수 없습니다. 이 데이터에 대해 Python을 사용하여 일부 분석을 사용하고 싶습니다. 누구든지 나를 도울 수 있습니까? 고맙습니다.옐프 데이터 파일 유형
답변
동일한 문제가있었습니다. tar 파일 (확장자가없는 파일)도 tar 파일이라는 것을 알 수 있습니다. 따라서 다운로드는 기본적으로 tar 파일 내부의 tar 파일입니다. 원본 파일을 추출한 후 tar 확장자를 추가 한 다음 압축을 풉니 다. 추출한 후에는 데이터 세트에 대한 모든 다른 json 파일을 갖게됩니다.
Yelp 데이터 세트 예제 용 github 프로젝트에는 몇 가지 샘플이 있으며 그 중 하나는 "json_to_csv_converter"로, 사용자가 원하는 것을 수행하는 데 도움이됩니다.
Yelp's Academic Dataset Examples
하면이 도움이되는지 알려주세요!
나는 이것을 보았다.하지만 나는 json 파일이어야한다는 인상하에 있었다. 나는 그것을 시도 할 것이고 나는 이것이 작동하는지 알 것이다. 고맙습니다. –
내가 다운로드 할 수있는 것은 TAR 파일 (ZIP 폴더처럼 압축 됨)입니다. 데이터 집합을 보려면 내용을 추출해야 할 수 있습니다. 컴퓨터가 모든 파일 확장명을 표시하도록 설정되어 있는지, 데이터를 직접 보지 못했지만 컴퓨터에 단순히 표시되지 않는 확장명이있는 것 같습니다. 나는 틀릴 수도 있지만 이것은 내 직감이다. –
7-zip으로 압축을 풉니 다. 그게 올바른 도구인지 아닌지는 잘 모르겠습니다. 작동하는 것처럼 보였지만 파일은 확장자없이 나왔습니다. 일종의 일반 텍스트로 내용을 보려고했지만 파일이 너무 큽니다. pycharm과 같은 IDE에서 열면 파일의 종류를 묻습니다. 텍스트 나 JSON을 선택하면 이상한 문자가 많이 표시됩니다. 당신의 응답을 주셔서 감사합니다. –
와우! 이것은 효과가있다! 고맙습니다. 나는 이것을 대답으로 받아 들였다. 이것은 완벽하게 작동합니다. 다시 감사합니다. –