2010-12-29 2 views
0

다양한 웹 소스에서 우편 주소를 추출하는 방법에 대한 아이디어를 찾고 있습니다. HtmlAgilityPack을 사용하여 html을 XDocument (Csharp 4.0)로 변환합니다.html에서 우편 주소를 구문 분석하는 방법 (높은 허용 오차 - 낮은 엄격 성)

주소를 구성 요소로 세분화하지 않고 주소 전체를 얻으려고합니다. 나는 상당히 높은 부정확 한 수준을 받아 들일 용의가있다.

주소는 잠재적으로 au, uk, ca 및 usa 사이트에서 제공됩니다.

이 대답은 그것은 당신에게 주소의 공정한 금액을 얻을 것이다 (위 제공) 정규식 솔루션을 사용처럼 보이는 good regex solution

+0

도움이 될지 모르겠으나 다음은 국제 주소 형식 링크입니다. http://www.bitboost.com/ref/international-address-formats.html#Formats –

+0

실제 예 이러한 "다양한 웹 소스"중 하나의 도움이 될 것입니다. –

답변

2

제공합니다. 당신은 당신이 상당히 높은 부정확 한 수준을 기꺼이 받아 들일 의사가 있다고 언급했지만, 반드시 그렇게 할 필요는 없습니다. 데이터를 깨끗하게 정리할 수있는 방법에 따라 주소 목록을 정리하거나 때로는 "제거"할 수 있습니다. 즉, 잘못된 형식의 주소를 가져 와서 (html에서 스크랩 한 것에 따라) 표준화 엔진을 통과 한 다음 검증 엔진을 통해 실행합니다. 많은 경우 배달 할 수없는 주소를 사용하고 정규화되고 배달 가능한 주소를 반환합니다. 저는 USPS (미국) 주소에 대해 말하고 있습니다. 왜냐하면 그것은 내가 경험 한 것이기 때문에 그렇습니다. 그러나 비슷한 서비스를 가진 다른 나라가 있다고 확신합니다. 이러한 스크러빙 서비스는 필요에 따라 실시간 또는 배치 일 수 있습니다. 대부분은 상대적으로 빠릅니다. 희망이 도움이됩니다.

저는 smartystreets라고하는 주소 확인 회사에서 일합니다.