2012-08-10 1 views
1

그래서 freebase의 영화 제목이 190000 개가 넘는 영화를 가지고 Excel 시트를 만들었습니다. 위키 피 디아에서 제목으로 URL을 가져 오는 정보를 얻고 싶습니다. 오랜 시간이 걸릴 것이고, 컴퓨터를 8 시간 동안 실행 한 상태로두고 있습니다. 방금 2 %가되었습니다. 언젠가 나의 인터넷은 끊어졌고 처음부터 다시 시작해야한다. 어쨌든 내가이 100 개의 레코드를 한 번에 할 수 있고 파일이 끝날 때까지 계속할 수 있으므로 내 인터넷이 떨어지면 프로세스를 재개 할 수 있습니다.Google 검색에서 URL을 가져올 때 큰 데이터 세트를 처리하는 방법은 무엇입니까?

고마워요.

답변

1

~ 200K 페치는 아마도 Freebase 또는 Wikipedia 대량 덤프를 사용하여보아야 할 곳입니다. 가져 오기 속도 조정 간격의 기본값은 대부분의 웹 서비스에 필요한 것보다 훨씬 긴 5000msec (즉 5 초)입니다. 아마도 500msec 이하로 낮출 수 있습니다.

개인 컴퓨터에서 물건을 실행할 필요가 없습니다. Amazon의 EC2 또는 영구적 인 연결성과 엔지니어링 된 가동 시간을 가진 다른 서비스를 사용할 수 있습니다.

불행히도 Refined의 "URL 가져 오기로 열 추가"작업은 현재 다시 시작할 수 없으므로 완료 할 수 있어야합니다. 가동 시간/연결을 보장 할 수 없다면 다른 해결책은 a) 작은 단위로 작업을 수행하거나 b) 다른 도구를 사용하는 것입니다.

+0

그래서 Google이 올바른 도구라고 생각하기 때문에 파일을 분할하기 위해 루비를 사용하는 것입니다. 제대로 사용하는 법을 배워야합니다. 고마워. :-) – toy

+1

Ruby를 사용하지 않고 Refine에서 행의 서브 세트를 선택할 수 있습니다. 한 가지 방법은 row.index <10000 (또는 원하는 다른 값) 표현식이있는 사용자 정의 패싯입니다. –