2010-07-21 2 views
0

URL, 첫 번째 URL이있는 웹 페이지의 URL, 웹 페이지의 DOM, 웹 페이지의 나머지 URL 목록 어떻게 URL이 페이지의 머리글/바닥 글에 있는지 또는 둘 다 아닌지를 확인할 수 있습니까?URL이 웹 페이지의 머리말/꼬리말에 주어진 URL, 페이지 DOM, 상위 URL 및 다른 페이지 URL에 있는지 확인하십시오.

저는 C#/.NET을 사용하고 있습니다.

나는 웹 페이지가 의미 적 표현도 일부 웹 사이트 때문에/페이지 특별히 자신의 페이지를 당황하게되지 않기 때문에 해결책 완벽 없다는 것을 알고,하지만 난에 대한 작업 웹 페이지의 75 %를 말할 것입니다 몇 가지 논리를 구축하고 싶습니다.

또한 페이지의 URL 위치를 확인하는 데 유용한 다른 정보가 있습니까?

답변

0

여기서 "창조적 인 작업은"x 단위 이하의 콘텐츠 "또는"페이지의 마지막 200 문자 "와 같이"머리글 "과"바닥 글 "을 정의하는 것입니다. 이 작업을 완료하면 해당 규칙을 기반으로 페이지를 구문 분석 할 수 있습니다.

+0

그래, 정확하게 그 질문은 머리말 또는 꼬리말에있는 것으로 URL에 라벨을 붙이기 위해 질문의 태그 중 하나입니다. 나는이 매우 광범위한 아이디어를 정의 할 필요가 있음을 안다. 간단한 (예 : 페이지의 첫 번째 x 링크 중 하나)에서 매우 복잡한 (DOM에서 머리글과 바닥 글처럼 보이는 컨테이너를 찾는 역 추적) 모든 것을 조사하고 있습니다. 사이트의 75 %를 찾는 중임에 따라 단순한 경험적 방법론을 강조하고 싶습니다. 이 75 %는 제가 잘 생각하는 페이지입니다. 다른 25 %의 페이지에서 내 시간의 90 %를 소비하지 않을 것입니다. 감사. – Chad

+0

또한 "머리글"과 "바닥 글"을 일반적으로 웹 페이지의 머리글과 바닥 글이라고 생각합니다. 페이지를 볼 때 분명하지만, 페이지의 HTML을 볼 때 분명히 분명하지는 않습니다. URL의 머리글/바닥 글에 태그를 추가 할 수있는 휴리스틱을 확인하려고합니다. ** 머리말/꼬리말 아이디어를 제한하고 싶지는 않지만 최대한 각 페이지에 적응하고 싶습니다 **. – Chad