2012-03-06 3 views
2

36k 행의 데이터가있는 Google 상세 검색 프로젝트가 있습니다. freebase url에서 json 데이터를 가져 오는 것과 함께 다른 열을 추가하고 싶습니다. 작은 데이터 세트에서 작업 할 수 있었지만이 프로젝트를 실행했을 때 처리하는 데 몇 시간이 걸렸으며 그 결과 대부분이 공백이었습니다. 데이터로 결과를 얻었습니다. 데이터를 가져올 행의 양 또는 URL에서 데이터를 가져 오는 더 나은 방법을 제한하는 방법이 있습니까?Google 큰 데이터 집합에 대해 freebase에서 데이터를 구체화하고 가져 와서 작동하지 않는 URL에서 열을 만듭니다.

감사합니다!

답변

2

Freebase에서 데이터를 추가하는 경우 "URL을 가져 와서 열 추가"보다는 "Freebase에서 열 추가"를 사용하는 것이 좋습니다.

패싯은 가장 강력한 Google 상세 기능 중 하나이며 모든 종류의 것들을 제어하는 ​​데 사용할 수 있습니다. 이 경우 패싯을 사용하여 데이터의 하위 집합을 선택하고 해당 하위 집합에서 가져 오기를 수행 한 다음 다른 하위 집합과 함께 반복 할 수 있습니다.

다음 버전의 Refine에는 이와 같은 문제를 디버그하는 데 도움이되는 URL 페치 결과에 대한 더 나은 오류보고가 포함되지만 총 요청 수만큼 원격 사이트의 모든 제한 사항을 준수해야합니다. 초당 요청 수, 등.