나는 매우 기본적인 정규화를 시도하고 있으며, 대부분의 경우 정규화는 불가능한 작업이라는 것을 알고 있습니다.parse_url을 사용하여 url을 정규화하는 방법은 무엇입니까?
다른 검색 엔진은 다른 체계, 호스트 등을 사용하여 동일한 검색 결과를 반환합니다. 수집해야하는 가장 기본적인 부분은 무엇이며 URL의 핵심 부분 만 남기고 parse_url로 한 부분 이상을 수집 할 수 있습니까? ?
결과 1 : http://dogs.com 결과 2 : http://www.dogs.com
이 가능하며 다른 검색 엔진에 의해 생성 될 수있는 불일치의 이러한 종류의 t의 계정이 필요
질문에는 "유사"URL에 대한 명확한 설명과 몇 가지 예가 필요하며 정규화가 기대하는 결과가 필요합니다. –