Google 뉴스에서 검색 한 내용을 "Explore in depth"버튼을 클릭하면 여러 소스에서 동일한 뉴스 기사를 볼 수 있습니다. 어떤 종류의 알고리즘을 사용하여 텍스트 기사를 비교 한 다음 동일한 내용을 결정할 수 있습니까?문자열의 유사성 감지
Is there an algorithm that tells the semantic similarity of two phrases
는 그러나, 언급 한 방법을 사용하여, 나는 본질적으로 비슷하지만 다른 이야기에 관한 있었다 기사가 있다면, 그들이 거기에 언급 된 방법을 사용하여 그룹화 될 수 있다고 생각 : 나는 여기에 질문을 보았다 . 똑같은 문자열을 그대로 유지하면서 문자열을 동일한 방식으로 감지하고 그룹화하는 표준 방법이 있습니까? 예 : "미국 국경"을 검색하면 미국 국경에서 문제에 관한 이야기를들을 수 있지만, 이들 모두가 함께 그룹화되는 것을 막을 수있는 방법은 무엇입니까? 제가 생각할 수있는 것은 출판 일입니다. 그러나 많은 이야기들이 서로 아주 가깝게 출판 되었다면 어떨까요?
기본적으로 Google은 링크 구조에 관한 것입니다. 엔티티를 (이후 단계에서) 등가 클래스로 그룹화 할 수 있었지만 값 비싼 프로세스입니다. 일단 링크 구조가 확립되면 더 저렴해질 것입니다. (영향을받은 세트가 더 작기 때문에) – wildplasser