sequencematcher

    3

    2답변

    이 특정 문제에 접근하는 가장 좋은 방법에 대해 궁금해하고 라이브러리가 있으면 (파이썬이 바람직하지만 필요에 따라 유연해질 수 있음). 각 줄에 문자열이있는 파일이 있습니다. 각 줄마다 가장 긴 공통 패턴과 그 위치를 찾고 싶습니다. SequenceMatcher를 사용하여 선 1과 2, 1과 3을 비교할 수 있고 결과를 상관시킬 수 있다는 것을 알고 있습니

    3

    3답변

    저는 파이썬 difflib 라이브러리를 사용하여 2 개의 문서가 다른 곳을 찾았습니다. Differ(). compare() 메서드는이 작업을 수행하지만 매우입니다. diff 명령과 비교할 때 큰 HTML 문서의 경우 느림 - 적어도 100 배 느립니다. 어떻게 파이썬에서 2 개의 문서가 다른지를 효율적으로 판별 할 수 있습니까? (이상적으로는 Sequenc

    2

    1답변

    difflib의 문서를 확인한 결과, 실제로 difflib.SequenceMatcher.ratio()이 어떻게 작동하는지 혼란 스럽습니다. 이것을 고려하십시오 : s = difflib.SequenceMatcher(None, "hey here" , "hey there").ratio() print s 는 s = 0.9411764705882353 나는 그것

    -1

    1답변

    나는 2 개의 거리 네트워크를 비교하려고합니다.이 코드를 실행하면 .253529의 비율이 반환됩니다 ... 고유 한 값을 얻기 위해 각 행을 비교해야하므로 쿼리 할 수 ​​있습니다. 일치하지 않는 거리 밖으로. 행마다 고유 비율 값을 반환하려면 어떻게해야합니까? 당신은 항상 두 파일을 모두 알고있는 라인의 동일한 숫자, 이런 간단한 방법이있는 경우 # Se

    5

    2답변

    나는 유사성을 찾으려는 문자열이 많습니다 (각 문자열은 평균 30 자입니다). 나는 간단하고 결과가 좋았으므로 difflib'sSequenceMatcher이이 작업에 유용하다는 것을 알았습니다. 내가이 >>> sm=SequenceMatcher(lambda x:x=='-','hellboy','hell-boy') >>> sm.ratio() 0: 0.9333

    1

    1답변

    나는 OCR이있는 프로젝트에서 스페인어에 있습니다. 카메라는 한 줄의 텍스트에서 다른 프레임을 캡처합니다. 텍스트 줄에는 다음 내용이 포함되어 있습니다. 에스테 텍스트, españo prueba del dispositivo lector para no videntes. 은 일부 작업 후 나는 그 같은 문자열을 얻을 : s1 = "Este texto, es u

    0

    1답변

    "가까운"일치가 발견되지 않으면 두 세트 중 가장 가까운 것을 찾으려는 두 세트의 이름이 있습니다. 그 이름을 그 이름과 일치시키고 싶습니다 . 나의 현재 접근 방식은 모든 가능한 조합을 갖는 dataframe 만들고 반복하고 (SM로 가져온) SequenceMatcher 통해 유사성 비율을 계산하거나리스트 .apply 사용하는 것이다. 문제는 두 목록에