deduplication

    0

    2답변

    WebsiteData이라는 테이블에 Website (VARCHAR 유형) 열에 저장된 수천 개의 URL이있는 데이터 세트가 있습니다. www으로 시작하는 것을 제외하고는 동일한 URL 쌍 (별도의 행에 저장 됨)이 여러 개 있습니다. www.google.com이고 다른 하나는 예를 들어 google.com이 아닙니다. 이 의사 복제본을 식별하고 www으로

    2

    1답변

    Hadoop Mapreduce를 사용하여 파일의 중복 제거를 구현하려고합니다. 필자는 매퍼 함수의 입력 디렉토리에있는 모든 파일의 MD5 합계를 계산하여이를 수행 할 계획입니다. 이러한 MD5 해시는 감속기의 열쇠가되므로 동일한 해시를 가진 파일은 동일한 감속기로 이동합니다. Hadoop에서 매퍼의 기본값은 키가 줄 번호이고 값이 파일의 내용이라는 것입니다

    0

    1답변

    우리는 Yodlee 통합을 가지고 있으며 이중 트랜잭션 게시에 문제가 있습니다. 시나리오가있는 조건은 다음과 같습니다. 1) 신용 카드가 얼마만큼만 실행되고 나중에 팁이 추가되어 약간 더 많은 금액으로 카드가 실행되는 팁이 있습니다. 2) Comerica 은행에서 발생하며 다른 모든 신고가 없습니다. 그래서 50 달러에 레스토랑에서 저녁 식사 요금 청구서를

    0

    2답변

    제 질문은 제목으로 설명하기 어려워서 데이터와 목표를 보여 드리겠습니다. 다음과 같은 구조의 MySQL의 테이블이 있습니다 : CREATE TABLE customerProjectData( idCustomer INT NOT NULL, idProject INT DEFAULT NULL, comePersons SMALLINT DEFAULT

    -1

    1답변

    나는 몇 가지 오픈 소스 코드를 수정하기 위해 노력하고 있어요,하지만 난 어떻게 접근 문제가 있으므로 내가 lessfs라고 함께 일하고 오픈 소스 프로그램과는 약 4 C의 파일이 최대 3000 줄의 코드. 나는 수정하기 위해서 소스 코드의 한 부분에만 관심이있다. 따라서 내 질문에 코드 안에 인쇄 문을 몇 개 추가하고 싶습니다. 어떻게 볼 수 있습니까? 프

    5

    2답변

    RFC에 따라 일부 헤더 만 사용하여 전자 메일을 중복 제거 할 수 있다는 것은 사실입니까? 메시지 ID는 고유해야합니다. 아래의이 중복 제거 방법에서 놓친 하나의 이메일 beeing이 누락 될 확률을 계산할 수있는 방법이 있습니까? (해당 세 헤더의 sha512 해시)? // $email is a parsed array containing 3 keys (

    0

    2답변

    에있는 lm 개체의 목록을 에 lm 개의 모델 개체가 반복 될 수 있으므로이 두 개의 개체가 동일한 지 확인하는 방법을 찾고 싶습니다. 즉, 내 list을 "중복 제거"하고 싶습니다. 대단히 감사합니다. 문제의 예 : ## Creates outcome and predictors outcome <- c(names(mtcars)[1:3]) predictor

    4

    3답변

    목록의 집합에 중복 제거 후보 번호가 T와 합계하는 C. C의 각 숫자는 조합에서 한 번만 사용할 수 있습니다. 참고 : (대상 포함) 모든 숫자는 양의 정수가 될 것입니다. (a1, a2, ..., ak) 조합의 요소는 내림차순이 아니어야합니다. (즉, a1 ≤ a2 ≤ ... ≤ ak). 솔루션 세트에는 중복 조합이 없어야합니다. 예를 들어, 주어진 후

    4

    1답변

    여러 개의 GIT 저장소가있는 폴더에있는 모든 중복 개체를 하드 링크하는 방법이 있습니까? 설명 : 회사 서버 (Linux Machine)에서 git 서버를 호스팅하고 있습니다. 아이디어는 모든 사용자가 푸시 액세스 권한이없는 주된 표준 리포지토리를 갖는 것입니다. 그러나 모든 사용자가 표준 리포지토리를 생성합니다 (사용자의 홈 디렉터리에 정식으로 복제하여

    1

    1답변

    복제 방지를 위해 레코드를 삽입하는 데 몇 일 전에 스택을 사용하고있었습니다. .. 다음을 입력하는 과정이 느리고 그들이에 미끄러. 내가 약 10,000 플레이어의 사용자 기반을 가지고 있고, 그들이 중복 된 항목이 그러나 나는 성공하지 않고 이러한 중복을 걸러 노력했습니다. 스택에있는 예제는 나를 위해 팬이 없습니다. 여기 내 테이블 [18] =