전 세계의 위치 주소 (500k +)보다 큰 데이터베이스가 있습니다. 많은 주소가 중복되거나 거의 중복되지만 새 주소를 입력 할 때마다 데이터베이스에 이미 있는지 확인하고, 그렇다면 기존의 위도/경도를 사용하여 새 항목에 적용합니다. 별도의 테이블에 연결하지 않는 이유는 주소가 검색 그룹으로 사용되지 않기 때문에 주소를 구별하기에 충분한 차이가 있기 때문입니다. 주소와 일치하는 항목이 있으면 그 위도/경도를 적용합니다. 그렇지 않다면, 저는 도시 차원으로 가서 적용합니다. 거기서 경기를 볼 수 없다면, 달리는 별도의 절차가 있습니다.누락 된 지오 코딩 정리 (또는 데이터 정리에 대한 일반적인 조언)
이제 광범위한 배경을 가지고 있습니다. 때로는 정상적인 허용 오차 범위를 훨씬 벗어난 위도/경도로 끝납니다. 그러나 이상하게도 일반적으로 범위 밖의 위도/경도 중 하나 또는 두 개 뿐이지 만 나머지 데이터는 정확한 도시 이름을 가진 데이터베이스에 있습니다.
데이터를 정리하는 것이 어떻습니까? 나는 geonames 데이터베이스를 가지고 있으므로 이론적으로 정확한 데이터를 가지고 있습니다. 내가 고민하고있는 것은이 일을하기 위해 당신이 달릴 루틴이 무엇인가하는 것입니다.
누군가가 (낮은 수준의) 데이터 스크럽 방향으로 나를 가리킬 수 있다면 좋을 것입니다.
나는이 문제를 아주 잘 이해하지 못한다. 조금 더 명확히 할 수 있다고 생각하니? –