.csv 또는 유사한 형식으로 기록 된 테이블을 나타내는 파일이 있습니다. 표에 누락 된 값이있을 수 있습니다. 내 파일이 커질 수 있으므로 모든 것을 메모리에로드하지 않고 증분 방식으로 내 파일을 처리하는 솔루션 (Java가 선호 됨)을 찾습니다. 파일에서 중복 레코드를 식별하여 고려 대상에서 제외 할 열을 지정할 수 있어야합니다. 그런 다음 중복 된 레코드를 그룹화 한 출력을 생성합니다. 그룹 번호로 끝에 추가 값을 추가하고 그룹 번호별로 정렬 된 동일한 형식 (.csv)으로 출력합니다..csv에 변수가 포함 된 해싱 행을위한 Java 솔루션
일부 해시 기능을 사용하면 효과적인 솔루션을 찾을 수 있기를 바랍니다. 예를 들어, 모든 행을 읽고 해시 값을 각 행 번호와 함께 저장하면, 해시 값을 입력으로 제공하는 변수 세트를 기반으로 해시가 계산됩니다.
아이디어가 있으십니까?
DBMS 대신 더 나은 작업 일 수 있습니다. – Makoto
예,하지만 자바에서 필요합니다. – mel