나는 IMDbAPI.com을 실행하고 Bing의 검색 API를 사용하여 제목 검색에서 IMDb ID를 찾았습니다. Bing은 현재 Azure Marketplace (8 월 1 일)에 API를 변경하고 더 이상 무료로 사용할 수 없습니다. Freebase를 사용하여 API를 테스트하여 처음 8 시간 동안 100K 한도에 도달했습니다 (내 사이트는 현재 하루에 약 300 만 건의 요청을 처리하지만 제목 검색은 200-300k에 불과합니다)Freebase : "imdb_id"가 포함 된 데이터 덤프 파일은 무엇입니까?
이것이 바로 이유입니다.
대부분의 파일을 Film 폴더에 다운로드했지만 "/ authority/imdb/title"imdb id 네임 스페이스 데이터가 저장되는 위치를 찾을 수 없습니다. 나는 현재 ID에 접근하고있어 어떻게
이입니다.
어떤 사람이이 정보가 포함되어 있는지 알고 있나요? 어떻게 영화 제목/ID에서 다시 링크 할 수 있습니까? 4 기가 바이트 파일의 파일 http://download.freebase.com/datadumps/latest/freebase-datadump-quadruples.tsv.bz2
에서
/m/015gxt /type/object/key /authority/imdb/title tt0065126
, 그래서 준비 :
필자는 4GB (33gig 추출) 파일을 피하려고했지만 어쨌든 다운로드하고 지난 3 시간 동안 아무 것도 열어 보지 못하도록 파싱했습니다. Microsoft의 Log Parser 2.2를 사용하여 큰 상처를 입었습니다. LogParser.exe -i : TSV "Select Col1, Col4 INTO C : \ imdbList.csv C : \ freebase.tsv WHERE Col3은 '% imdb/title %'와 같은" "-o : CSV -headers : OFF -iHeaderFile : "C : \ header.txt" 이제 모든 Freebase ID와 IMDb의 ID가있는 3MB CSV 파일이 있습니다. – bfritz
다음으로 "Film"에서 "Title", "Release Year"및 "Aliases"를 가져와야합니다. tsv "다음 SQL에서 데이터에 가입 할 수 ... 그리고 마침내 검색 할 수 :)하지만"Films.tsv "찾아보기 폴더에서 여분의 파일에 의존하고 있습니다 곧 이러한 멀리 갈 수 있습니까? – bfritz
아마도 압축 파일을 처리하는 것이 더 빠르며 (물론 디스크 공간이 적어 짐) 압축을 풀지 않을 것입니다. 어떤 Linux 시스템 (또는 Windows의 Cygwin)도 이상한 독점 유틸리티를 다운로드하지 않고도이를 처리 할 수 있습니다. 해당 명령은 bzgrep "authority/imdb/title"입니다. freebase-datadump-quadruples.tsv.bz2 | cut -f 1,4> imdbList.csv 랩톱에서조차도 4GB 파일의 압축을 풀고 검색하여 20 분 이내에 142K 쌍의 ID를 출력 할 수 있습니다. –