2012-11-24 5 views
2

일부 관련 정보를 찾으려면 특정 웹 사이트를 크롤링해야합니다. 처음에는 크롤링 할 때 자세한 정보를 제공하는 해당 URL을 얻기 위해 사이트를 검색해야합니다. Node.io, JSDOM 또는 PhantomJs? 또는 YQL- data.html.cssselect?

이의 가정하자 검색 URL이 의미

example.com/city1/search.html?cat=category1&locality=location1&page=1 

이며, 위치 및 페이지 등등 시티 2, 시티 3 등 카테고리가 될 수 구분 2, category3 등을하고있을 수 있습니다.

결과가 null이 아닌 경우까지 모든 도시, 카테고리, 위치 및 페이지를 증가시킬 수 있습니다.

모든 URL을 얻은 후에는 각 URL에서 자세한 정보를 찾아야합니다. 특정 필수 정보가 자바 스크립트의 일부로 제공되는 것을 보았습니다.

이제 node.io, jsdom 및 phantomjs를 보았습니다. 나는 또한 yql을 보았다. 저는이 문제에 익숙하지 않으므로이 시나리오에서 이상적인 경험을 제안 해주십시오.

몇 가지 예를 들려 줄 수 있다면 정말 좋을 것입니다.

+0

당신이 무엇을하려고 노력하는지 명확하지 않다. HTTP를 통해 일부 리소스를 요청하기 만하면되는 것처럼 보이기 때문에 아무 것도 제안하기가 어렵습니다. – Brad

+0

글쎄, 목표는 세부 URL에서 사업체의 주소, 연락처 세부 정보 등을 얻는 것입니다. 이 기업들은 카테고리, "식당", "팔러", "전자 제품"등일 수 있습니다. – user644745

+0

URL을 구문 분석하고 쿼리 문자열 내의 데이터에 액세스 하시겠습니까? 또는 해당 URL에서 리소스를 가져 와서 되돌아 오는 것을 구문 분석하고 싶습니까? 좀 더 명확하고 구체적으로 기재하십시오. – Brad

답변

0

PhantomJS는 제공하는 URL에서 javascript를 실행할 수 있습니다. URL에 javascript/ajax 콘텐츠가 있으면 매우 유용합니다. YQL doesn''t는 웹 사이트에서 javascript/ajax를 달리게한다. 그러나 그 무엇인가 얻는 것이 가장 빠르다