2013-07-08 5 views
2

은 사람이하는 Freebase 데이터 덤프에서 배우 ID를 받고, 나중에하는 Freebase API에서 IMDB ID와 전기를 얻기에 가장 좋은 방법을 알고 있나요?데이터에서 배우 ID와 전기를 Gettting 덤프 나에 Freebase API는

+0

지금까지 해보신 것은 무엇입니까? 덤프에서 하나의 ID 집합을 얻고 API에서 다른 ID 집합을 가져 오는 이유는 무엇입니까? –

+0

@Tom Morris 나는 나의 Db에서 배우의 많은 기록을 업데이트해야합니다. 이것이 내가 데이터 덤프에서 가져 오는 것을 생각한 이유입니다. 나는 배우가 무료로 기본 ID, Imdb ID, 위키 ID, 전기 및 이미지가 필요합니다. 나중에 정기적으로 레코드를 업데이트해야합니다. 그래서 Api에 대해서도 생각했습니다. 너 나를 안내 해줄 수 있니? – Gidi

답변

4

배우 타입/영화/배우가 있고 덤프에 다음과 같이 표시됩니다

ns:m.010q36  rdf:type  ns:film.actor. 

당신은 간단한 GREP로 압축 된 덤프에서 몇 분 거리에 그들 모두를 찾을 수 있습니다

zgrep $'rdf:type\tns:film.actor.' freebase-rdf-<date of dump>.gz | cut -f 1 | cut -d ':' -f 2 > actor-mids.txt 

이는 MID /m/010q36를 나타내는 형태에서의 MID m.010q36 목록을 생성한다. MID를의 목록을 사용하여

,이 모든 라인을 찾아 그 MID 첫 번째 열에, 두 번째에서 원하는 속성 중 하나. Python, grep 또는 원하는 도구/언어를 사용하여이 작업을 수행 할 수 있습니다. 물론 Python과 같은 프로그래밍 언어를 사용한다면 초기 검색을 시작할 수 있습니다.

위키 백과와 IMDB ID는하는 Freebase는 (MusicBrainz에 & 넷플릭스도 포함) 키를 호출하고이 어떻게 생겼는지로 저장됩니다

키 (위의 위키 백과 키 등) 인코딩 될 수
ns:m.010q36  ns:type.object.key  "/wikipedia/en/Mr$002ERodgers". 
ns:m.010q36  ns:type.object.key  "/authority/imdb/name/nm0736872". 
ns:m.010q36  ns:type.object.key  "/authority/musicbrainz/87467525-3724-412d-ad3e-595ecb6a3bfd". 
ns:m.010q36  ns:type.object.key  "/authority/netflix/role/30006685". 

. 문서 처리 방법은 Freebase wiki에서 찾을 수 있습니다.

+0

Cygwin을 zgrep 명령과 함께 사용해 보았지만 비어있게되었습니다. API를 사용하는 것을 선호하지만 하루에 100,000 개의 쿼리로 제한됩니다. 나는 정말로 좌절하고있다. 내가 가지고있는 것은 정보를 얻고 자하는 Imdb Ids의 수백만 명의 배우들입니다. (FreeBase Id, Wiki Id, Actor 's Biography, Actor 's Image 등의 정보). 제발 어떻게 할 수 있니? – Gidi

+1

그 명령은 테스트를 마친 Cygwin 창에서 잘라서 작동해야합니다. API는 대량 다운로드를위한 것이 아닙니다. 배우 ID를 시작하려면 그 방법으로 검색해야합니다. 'zgrep '/ authority/imdb/name과 같은 것 "freebase-rdf-2013-06-30-00-00.gz | cut -f 1,3'은 MID 목록을 가져 오며 해당 IMDB ID입니다. 내 GZ 파일을 가정 –

+0

는 D에있다 :하려면 zgrep "/ 권한/IMDB/이름"/ D/일/유리 염기-RDF-2013-04-07- : \ 작업 내가 시도 "해당 파일 또는 디렉토리가 없음"오류 없어 어떤이 00-00.gz | 컷 -f 1,3 | -d 컷 ':'-f 2> 배우 mids.txt 와이 : 하려면 zgrep의 $ 'RDF : 유형 \ TNS :. film.actor를' /d/work/freebase-rdf-2013-04-07-00-00.gz | 컷 -f 1 | cut -d ':'-f 2> actor-mids.txt – Gidi