fuzzy-comparison

    0

    1답변

    "맞춤 기준"/ 퍼지 매칭을 사용하여 여러 개의 필드에 두 개의 (Pair)RDD (또는 Dataset s/DataFrame)을 결합 할 수 있습니까? 숫자 또는 날짜에 대한 범위/간격 및 다양한 "거리 방법". Levenshtein, 현을 위해? PairRDD을 얻을 수있는 RDD에서 "그룹화"를 , 하나는 PairFunction을 구현할 수 있지만, 두

    2

    1답변

    다음 웹 페이지를 참조하십시오. http://msdn.microsoft.com/en-us/library/ms137786.aspx. '인덱스 및 참조 테이블의 캐시'에서는 상태 : "당신은 유사 항목 조회 변환을 구성 할 때, 당신은 변환이 부분적으로 인덱스를 캐시 여부를 을 지정할 수 있습니다 변환이 수행되기 전에 메모리에 테이블을 참조 그 WarmCach

    0

    2답변

    이름이 일치하는 두 개의 파일이 있는데 압축 된 기능을 사용하여 맞춤법 오류를 고려하고 싶습니다. 이름은 철저히 정리되었으므로 검색 공간을 줄이기 위해 사용할 수있는 다른 유용한 일치 변수가 없습니다. 파일 name1과 name2는 각각 500K 행을 초과하므로 11 시간 후에이 코드가 실행되지 않습니다. 이 코드를 좀 더 효율적으로 코딩 할 수있는 방법이

    0

    2답변

    주소, 이름, IBAN, 전자 메일과 같은 값을 가진 스프레드 시트가 있으며 마지막으로 고객이 구입 한 시간을 확인하려고합니다. 일부 필드는 맞춤법 오류가 포함되어 있으며 일부는 의도적으로 잘못 입력 한 것입니다. https://github.com/seatgeek/fuzzywuzzy, https://github.com/seamusabshere/fuzzy_m

    3

    1답변

    임계 값을 기준으로 병합하려는 두 개의 다른 데이터 세트로 작업하고 있습니다. 의 두 dataframes는 다음과 같이 가정 해 봅시다 : 지금하고 싶은 무엇 library(dplyr) library(fuzzyjoin) library(lubridate) df1 = data_frame(Item=1:5, DateTime=c("2015-01

    2

    1답변

    인간은 실수를 저지른다. 일부 엔티티를 식별하는 고유 한 생성 ID를 제공해야 할 때. 예 : 주문 A : 있음 ID ABC1234 주문 B : ID가 BCD1235 예 : A123, B123, 1 2 3, "주문 ID B 12/3"의 문자열을 입력 할 수 있습니다. 그런 다음 자동 시스템은 원래 ID를 식별하는 데 어려움이 있습니다. 내 질문은 알려진 알

    1

    1답변

    줄리아에서 퍼지 정규식 일치를 수행 할 수있는 방법이 있습니까? 나는이 테스트를하지만, 일치하는 정도 자유롭게 허용하고 Levenshtein 거리하여이를 지정할 수 있도록하고 싶습니다 toMatch = Regex(word,"i") ismatch(toMatch,input_string) : 나는 다음과 같은 정규 표현식 테스트를 건설했다. 거리를 계산할

    1

    1답변

    두 개의 데이터 프레임이 있습니다. 하나는 33765 개의 회사를 포함합니다. 또 다른 358839 기업이 포함되어 있습니다. 나는 퍼지 매치를 사용하여 두 사람 사이의 매치를 찾고 싶다. 레코드 수가 너무 많기 때문에 회사 이름의 첫 글자에 따라 두 데이터 프레임의 레코드를 구분하려고합니다. 예 : 문자 "A"로 시작하는 모든 회사의 경우 첫 번째 데이터

    1

    1답변

    NCAA의 팀 이름 배열과 관련 통계가 있습니다. 학교 이름은 종종 짧아 지거나 완전히 버려 지지만 대개 Alabama Crimson Tide와 Crimson Tide와 같은 이름의 모든 유사어에 공통 요소가 있습니다. 이 이름들은 모두 특별한 순서없이 배열에 포함됩니다. 퍼지로 팀 이름의 모든 변형을 검색하고 모든 변형을 하나의 이름으로 바꿀 수 있기를

    0

    2답변

    색인 기능을 사용하여 A와 B의 문자열 값을 비교하고자합니다. A에 B가 포함되어 있는지 확인하고 싶습니다. 인덱스를 수행하는 방법을 알고있는 유일한 방법이지만 인덱스는 인덱스의 매개 변수에 열 이름을 허용하지 않습니다. 문자열 값을 입력해야합니다. 시도 : index(Address, HouseNumber)>0하지만 작동하지 않습니다. 예 : Address