2014-09-19 7 views
3

최근 IMDBpy API를 사용하여 IMDB 데이터 세트를 긁습니다. 이 API에는 IMDB 영화 데이터 집합을 SQL 데이터베이스로 변환 할 수있는 imdbpy2sql.py가 있습니다. 하지만이 데이터 집합에 대한 설명을 찾을 수 없습니다. 그래서이 SQL 데이터베이스의 스키마를 이해할 수 없습니다. 이 데이터베이스에는 너무 많은 테이블이 있습니다. 그걸 알 수있는 방법이 있습니까?IMDBpy가 만든 SQL 영화 데이터베이스에 대한 설명

데이터베이스를 구축하려면이 웹 사이트를 엄격하게 준수하십시오 http://blog.secaserver.com/2013/08/importing-imdb-sample-data-set-mysql/.

감사합니다.

답변

8

나는 테이블이 너무 많다고 생각하지 않습니다. 사용할 수있는 많은 속성/관계가 있습니다.

pyIRDG을 생성하는 동안 this image을 한 번 생성했습니다. 사용 가능한 데이터에 대한 문서를 보려면 해당 코드를 살펴보십시오. 주석의 출력은 다음과 같습니다. http://pastebin.com/zGnZ02w4

또한 MySQL Workbench을 사용하여 db에서 스키마를 생성했습니다.

German blog articlean ERM image http://meolus.de/fileadmin/images/meolus/blog/imdb-erm.png이 있습니다.

내가 아는 것은 아니지만 확실히 우리 DB는 NF에 없습니다. :-) 어쨌든 imdb/parser/sql/dbschema.py 모듈에서 스키마를 쉽게 보거나 데이터베이스에서 직접 일부 도구를 사용할 수 있습니다. Source.

+0

감사드립니다. 그것은 내가 필요한 것입니다. 영화 정보 스크래핑에 IMDbPY를 사용해 본 적이 있습니까? – Zizhao

+0

아니요, 제공된 IMDb 데이터 집합 만 사용했습니다. – ofthelit

+0

@ofthelit 아주 오래된 주제이지만 여전히 질문이 있습니다. 기본적으로 테이블 aka_name은 조금 쓸모가 없습니다. 뭐라 생각하니? –