0

내 부서는 데이터 마이닝/회사 대시 보드에서 사용할 수있는 다양한 회사 내 소스의 데이터 수집 및 표시를 처리합니다.데이터를 상호 참조 할 때 "퍼지 검색"사용

우리가 가진 큰 도전 중 하나는 다양한 부서에서 위치 이름을 상호 참조하는 것입니다. 우리는 다소 규모가 큰 조직이며 서로 다른 이해 관계를 가진 부서는 어느 한 위치에 대한 자체보고를 수행합니다. 일반적으로 위치 이름이 해당 부서의보고에있는 정확한 이름에는 불일치가 많이 있습니다. 위치가 어떤 개조를 통과하면

  • 의 멋진 레스토랑
  • 멋진 레스토랑
  • 신기 F & B
  • .. : 예를 들어, 위치는 다음과 같이 언급 될 수있다 Fabulous Cafe '
  • 또는 심지어 Pr ofit 센터 12345ABC

그래서 제 질문은 모범 사례가 우리 자신의 데이터베이스와 코드에서이 이름을 화해에 존재하는 무엇인가? 내 부서가 공통의 계층 구조 표준 (최적의 솔루션이 될 것입니다) 하에서 조직을 통합 할 능력이 없다고 가정 해 봅시다. 현재 우리의 실천은 계속 증가하는 위치 이름의 참조 테이블을 유지하는 것이며,이 이름 테이블은 우리 자신의 명명 표준으로 다시 참조됩니다. 이를 통해 당사는 데이터와의 일관성을 유지할 수 있습니다.

위치를 상호 참조 할 때 일종의 "퍼지 검색"을 구현하는 것이 가능합니까/권장 할 만합니까? 예를 들어, "the"와 같은 단어의 인스턴스를 무시하거나 "미리 정의 된 논리에 따라" "카페"와 "레스토랑"을 똑같이 취급 할 수 있습니다.

우리는 알고리즘 적으로 우리가 만나는 임의의 명명 규칙을 모두 설명 할 수는 없을 것이라고 생각하지만, 그 중 일부 또는 대부분을 설명하기에 충분합니까?

+0

가능하지만 충분합니까? 그것은 비즈니스 사람들이 그것에 대해 어떻게 생각 하느냐에 달려 있습니다. 다음과 같은 막연한 질문이 있습니다. http://stackoverflow.com/questions/1983717/finding-approximately-duplicate-database-records-using-t-sql/1985034#1985034 –

답변

1

키워드는 입니다. 태그가 다시 지정되었습니다. 퍼지 검색은 에서 흔히 볼 수 있으며 여기서는 매우 유용합니다. 그러나 사용자가 제공 한 예제는 자동 통합에 너무 어려울 수 있습니다. 사용자 개입이 필요하고 적절한 이 필요합니다.

퍼지 매칭을 사용하여 음악 재생 목록을 다시 가져 왔습니다. 심지어 인터넷에서. 제목과 아티스트는 대개 내 음악 컬렉션과 일치하는 신뢰할 수있는 퍼지 일치를 수행 할 수있는 충분한 데이터를 제공합니다 (적어도 노래가있는 경우).

"근사한 레스토랑"예와 같이 본질적으로 한 단어 만있는 경우 퍼지 매칭은 신뢰할 수 없습니다.

좋은 퍼지 매칭은 형태소 분석을 사용하고 일반적인 단어와 동의어의 개념을 갖습니다. 그래서 "레스토랑"과 "카페"는 아마도 중요한 것으로 간주되지 않을 것입니다. 핵심 포인트는 충분한 데이터를 확보하는 것입니다. 한 단어만으로는 위치를 식별하기에 충분하지 않을 수 있습니다.