그래서 freebase의 영화 제목이 190000 개가 넘는 영화를 가지고 Excel 시트를 만들었습니다. 위키 피 디아에서 제목으로 URL을 가져 오는 정보를 얻고 싶습니다. 오랜 시간이 걸릴 것이고, 컴퓨터를 8 시간 동안 실행 한 상태로두고 있습니다. 방금 2 %가되었습니다. 언젠가 나의 인터넷은 끊어졌고 처음부터 다시 시작해야한다. 어쨌든 내가이 100 개의 레코드를 한 번에 할 수 있고 파일이 끝날 때까지 계속할 수 있으므로 내 인터넷이 떨어지면 프로세스를 재개 할 수 있습니다.Google 검색에서 URL을 가져올 때 큰 데이터 세트를 처리하는 방법은 무엇입니까?
고마워요.
그래서 Google이 올바른 도구라고 생각하기 때문에 파일을 분할하기 위해 루비를 사용하는 것입니다. 제대로 사용하는 법을 배워야합니다. 고마워. :-) – toy
Ruby를 사용하지 않고 Refine에서 행의 서브 세트를 선택할 수 있습니다. 한 가지 방법은 row.index <10000 (또는 원하는 다른 값) 표현식이있는 사용자 정의 패싯입니다. –