web-crawler

    -4

    1답변

    은 오픈 소스 PHP 포럼을 쉽게 크롤링하여 내 포럼의 카테고리에 넣을 수있는 쉬운 방법입니다. "windows", "mac"등등?

    5

    1답변

    나는 PHP에서 웹 사이트 크롤러를 쓰고 있고 이미 사이트에서 모든 링크를 추출 할 수있는 코드가 있습니다. 문제 : 사이트는 절대 및 상대 URL의 조합을 사용합니다. (I 하이퍼 링크를 게시 할 수 없습니다로 hxxp로 대체 HTTP)을 예 : hxxp : site.com //site.com/ site.com/index.php hxxp : //site.

    0

    1답변

    ASP.NET에서 웹 사이트에 대한 웹 봇/크롤러를 만드는 방법이 있는지 궁금합니다. 결제 공급자 중 한 곳에서 정보를 수집해야하지만 API가 없으므로 정보를 자동으로 수집하는 유일한 방법은 해당 페이지에 로그인 한 다음 양식을 작성하고 검색하는 것입니다. 정보. 이렇게 할 방법이 있습니까?

    0

    2답변

    상당히 공정한 임의의 html 데이터를 처리해야합니다. 고맙게도 데이터는 약 12 ​​개의 다른 템플릿으로 나눌 수 있습니다. 나의 현재 계획은 각각의 템플릿에 대해 필자가 필요없는 데이터를 추출 할 수있는 필터를 만드는 것이다. 문제는 그 직업에 이상적인 도구가 무엇인지 모르겠습니다. 누군가가 임의의 HTML 데이터에서 요소를 추출/추출하기위한 좋은 라이

    4

    1답변

    저는 현재 웹 크롤러를 위해 C#에서 HTML 민첩성 팩을 사용하고 있습니다. 지금까지 많은 문제 ("/extra/url/to/base.html"및 "#"링크와 같은 잘못된 URI)를 피할 수 있었지만 PHP, Javascript 등을 처리해야합니다. 사이트에있는 링크는 PHP에 있으며 내 웹 크롤러가이 링크를 탐색하려고하면 실패합니다. 한 가지 예가 PH

    1

    2답변

    다국어 웹 사이트를 만들고 각 언어의 리소스 관리자를 사용합니다. 사용자가 언어를 선택할 때 모든 페이지가 선택한 리소스 본드를 사용합니다. 전체 사이트 만 한 언어로만 제공되므로 검색 엔진이 다른 언어를 크롤링하는 방식은 무엇입니까? 또는 검색 엔진이 옵션으로 제공되는 언어를 크롤링합니까?

    1

    1답변

    빌드 경로에 다른 Java 프로젝트 jspider가있는 웹 응용 프로그램 crawler_GUI가 실행 중입니다. (나는 이클립스 갈릴레오를 사용한다) GUI는 jspider 프로젝트를 백엔드로 사용한다. 구조 은 JSP 용 구경 http://i45.tinypic.com/avmszn.jpg는 jspider 오브젝트의 인스턴스를 생성한다. 우선 WEB-INF/

    4

    2답변

    안녕하세요. 소규모 검색 엔진을 만들기 위해 취미 프로젝트를 조금만 완료했습니다. 내가 사용했던 괜찮은 강력한 오픈 소스 웹 크롤러를 알고 있는지 궁금한가요? 놈이 설치하고 사용하는 것은 쉽습니다. 웹 크롤러를 검색하고 목록을 붙여 주셔서 감사합니다.

    5

    6답변

    WebSphinx 응용 프로그램을 사용해 보았습니다. wikipedia.org를 시작 URL로 지정하면 더 이상 크롤링되지 않습니다. 따라서 실제로 전체 Wikipedia를 크롤링하는 방법은 무엇입니까? 누구든지 지침을 내릴 수 있습니까? 특정 URL로 이동하여 여러 시작 URL을 지정해야합니까? 누구나 WebSphinx의 API에 대한 튜토리얼을 통해 좋

    0

    1답변

    Gantz 만화에서 이미지를 파싱하는 크롤러를 http://manga.bleachexile.com/gantz-chapter-1.html 이상으로 만들고 있습니다. 나쁜 URI (URI하지?) : 내 크롤러 (chapt 273)는 이미지를 열려고 할 때까지 나는 성공을 거두었 http://static.bleachexile.com/manga/gantz/273/