2014-06-05 3 views
0

특정 URL 집합을 크롤링해야한다는 요구 사항이 있습니다.Google 검색 어플라이언스 크롤링 관련 정보

예를 들어 사이트 abc.com이 있다고 가정 해보십시오. abc.com/test/needed -이 패턴과 일치하는 모든 URL을 "필요한"폴더 아래로 크롤링해야합니다. 그러나 abc.com/test/에있는 나머지 URL은 크롤링하지 않으려 고합니다.

RegEx를 사용하면됩니다. RegEx와 관련하여 도움을받을 수있는 사람이 있습니까? 당신이 패턴 양식의 것들과 일치하도록 주석의 말에서 진행

+1

귀하의 질문에 다소 불분명합니다. 원하는 것은 무엇입니까? 당신은 URL의 목록을 가지고 당신은 다른 사람이 아닌 일부와 일치하고 싶습니까? 어떤 것들은 당신이 일치시키기를 원하고 어떤 것은 일치시키고 싶지 않은지, 예제를 제공합니다. –

+0

예를 들어 말씀 드리겠습니다. 다음 URL이 있습니다. www.abc.com 2) www.abc.com/xyz 3) www.abc.com/xyz/imp 4) www.abc.com/xyz/waste 5) www. abc.com/pqr 패턴 "/ xyz"가있는 일치 uls를 찾을 정규식을 찾고 있는데, "xyz/imp"가 생략 된 경우 나머지를 건너 뛰거나 "/ xyz"를 일치시켜야합니다. – user1085906

+0

그래서'/ xyz '형식이지만'/ xyz/imp' 형식이 아닌 것들과 일치 시키길 원합니까? –

답변

0

양식 /xyz/imp/xyz하지만 일 :

/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2} 
+0

감사합니다. 이것은 좋으며 xyz가있는 URL 패턴과 일치합니다. 요구 사항은 약간 다릅니다. www.abc.com/xyz/imp, www.abc.com/, www.abc.com/pqr는 일치하지만 www.abc.com/xyz/waste는 일치시키지 않습니다. ... 짧게 말해서 url에/xyz /가 있으면 xyz/imp가 있어야합니다. 그렇지 않으면 일치하지 않습니다. url doesnt는/xyz /보다 그 url을 일치시킵니다. – user1085906

+0

나는 당신이 무엇을 요구하고 있는지 정말로 이해할 수 없다. [여기 regexes에 자습서입니다] (http://www.regular-expressions.info/tutorial.html), 행운을 빕니다. –

0

은 GSA에 추가 할 수있는 패턴은 다음과 같습니다

또는

포함 abc.com/test/needed :

을 abc.com/test/needed

GSA가이 문서를받는 방법을 고려해야합니다. 그것이 폴더에 거미 수 없다면 문서를 찾지 못할 것입니다.

0

GSA에는 사용자가 허용 한 세 가지 사양이 있습니다.

  1. 크롤링 시작 - GSA에게 링크 검색 시작 위치를 알려줍니다.
  2. URL 패턴 만 추적하여 크롤링합니다.이 패턴은 GSA에게 "크롤링 시작"으로 시작하여 발견 된 URL 중 어떤 URL을 추적하고 색인을 생성해야하는지 알려줍니다.
  3. URL 크롤링 금지 - 위의 두 패턴과 일치하지만 크롤링하지 않아야하는 URL 패턴의 사양입니다.

질문 자체에서 지정한만큼, 내가해야 할 일은 "시작 크롤링"URL을 "abc.com/"에 넣고 " 사이트에서 다른 경로/폴더를 크롤링 할 필요가 없다고 가정하고 "abc.com/test/needed/"사양을 따르고 크롤링 만합니다.