2009-03-12 3 views
3

전 세계의 위치 주소 (500k +)보다 큰 데이터베이스가 있습니다. 많은 주소가 중복되거나 거의 중복되지만 새 주소를 입력 할 때마다 데이터베이스에 이미 있는지 확인하고, 그렇다면 기존의 위도/경도를 사용하여 새 항목에 적용합니다. 별도의 테이블에 연결하지 않는 이유는 주소가 검색 그룹으로 사용되지 않기 때문에 주소를 구별하기에 충분한 차이가 있기 때문입니다. 주소와 일치하는 항목이 있으면 그 위도/경도를 적용합니다. 그렇지 않다면, 저는 도시 차원으로 가서 적용합니다. 거기서 경기를 볼 수 없다면, 달리는 별도의 절차가 있습니다.누락 된 지오 코딩 정리 (또는 데이터 정리에 대한 일반적인 조언)

이제 광범위한 배경을 가지고 있습니다. 때로는 정상적인 허용 오차 범위를 훨씬 벗어난 위도/경도로 끝납니다. 그러나 이상하게도 일반적으로 범위 밖의 위도/경도 중 하나 또는 두 개 뿐이지 만 나머지 데이터는 정확한 도시 이름을 가진 데이터베이스에 있습니다.

데이터를 정리하는 것이 어떻습니까? 나는 geonames 데이터베이스를 가지고 있으므로 이론적으로 정확한 데이터를 가지고 있습니다. 내가 고민하고있는 것은이 일을하기 위해 당신이 달릴 루틴이 무엇인가하는 것입니다.

누군가가 (낮은 수준의) 데이터 스크럽 방향으로 나를 가리킬 수 있다면 좋을 것입니다.

+0

나는이 문제를 아주 잘 이해하지 못한다. 조금 더 명확히 할 수 있다고 생각하니? –

답변

0

이것은 오래된 질문이지만, 진정한 원칙은 결코 죽지 않습니다. 맞습니까?

SmartyStreets라는 회사의 주소 확인 업계에서 일합니다. 주소 목록이 많고 공식 표준에 맞게 정리 한 후 운영에 의존하게되면 CASS 인증 소프트웨어 (미국 만 해당, 국가는 매우 다양하며, 많은 사람들은 그러한 서비스를 공식적으로 제공하지 않습니다.)

USPS는 CASS 인증 공급 업체에게 주소 데이터를 "스크럽"또는 "정리"(표준화 및 확인)하는 데 사용권을 부여합니다. SmartyStreets의 LiveAddress과 같은 서비스를 살펴보고 주소를 확인하거나 목록을 한꺼번에 처리하는 것이 좋습니다. 다른 옵션이 있지만 가장 유연하고 저렴한 가격이라고 생각합니다. 초기 목록을 삭제 한 다음 API를 사용하여 새로운 주소의 유효성을 검사 할 수 있습니다.

업데이트 : JSON을 여러 가지 용도로 사용하고 있습니다. (JSON을 좋아합니다. 사용하기 쉽습니다.) 제공하는 서비스 제공자는 많지 않지만 SmartyStreets 입니다. 또한 해당 사이트의 리소스/기사 중 일부를 읽음으로써 주소 유효성 검사의 주제에 대해 스스로를 교육 할 수 있습니다.

+0

방금 ​​업데이트되었습니다. 이제 LiveAddress는 지오 코드 좌표를 제공합니다. – Matt