일부 관련 정보를 찾으려면 특정 웹 사이트를 크롤링해야합니다. 처음에는 크롤링 할 때 자세한 정보를 제공하는 해당 URL을 얻기 위해 사이트를 검색해야합니다. Node.io, JSDOM 또는 PhantomJs? 또는 YQL- data.html.cssselect?
이의 가정하자 검색 URL이 의미example.com/city1/search.html?cat=category1&locality=location1&page=1
이며, 위치 및 페이지 등등 시티 2, 시티 3 등 카테고리가 될 수 구분 2, category3 등을하고있을 수 있습니다.
결과가 null이 아닌 경우까지 모든 도시, 카테고리, 위치 및 페이지를 증가시킬 수 있습니다.
모든 URL을 얻은 후에는 각 URL에서 자세한 정보를 찾아야합니다. 특정 필수 정보가 자바 스크립트의 일부로 제공되는 것을 보았습니다.
이제 node.io, jsdom 및 phantomjs를 보았습니다. 나는 또한 yql을 보았다. 저는이 문제에 익숙하지 않으므로이 시나리오에서 이상적인 경험을 제안 해주십시오.
몇 가지 예를 들려 줄 수 있다면 정말 좋을 것입니다.
당신이 무엇을하려고 노력하는지 명확하지 않다. HTTP를 통해 일부 리소스를 요청하기 만하면되는 것처럼 보이기 때문에 아무 것도 제안하기가 어렵습니다. – Brad
글쎄, 목표는 세부 URL에서 사업체의 주소, 연락처 세부 정보 등을 얻는 것입니다. 이 기업들은 카테고리, "식당", "팔러", "전자 제품"등일 수 있습니다. – user644745
URL을 구문 분석하고 쿼리 문자열 내의 데이터에 액세스 하시겠습니까? 또는 해당 URL에서 리소스를 가져 와서 되돌아 오는 것을 구문 분석하고 싶습니까? 좀 더 명확하고 구체적으로 기재하십시오. – Brad