2

파일이 많은 하드 디스크가 있습니까? 그 중 중복 파일을 어떻게 찾을 수 있습니까?
우리가 할 수있는 첫 번째 일은 FILE_SIZE를 기준으로 별도의 파일입니다.
그런 다음 MD5와 같은 일부 알고리즘을 사용하여 각 파일의 해시 값을 찾을 수 있습니다. 동일한 해시를 가진 파일이 중복됩니다.각 파일의 해시 계산 이외의 방법으로 하드 디스크에서 중복 파일을 찾으려면

FILE_SIZE를 사용하지 않고 다른 사람이 중복 파일을 찾기 위해 다른 방법을 사용할 수 있습니까? 어쩌면 파일 헤더, 확장자 또는 다른 아이디어를 사용하고 있을까요?

답변

2

여러 수준의 비교를 사용하여 빠른 것보다 먼저 느린 것을 실행하지 않도록 할 수 있습니다. 제안 :

  1. 파일 길이를 비교하십시오.

  2. 그런 다음 파일의 처음 1KB를 비교하십시오.

  3. 그런 다음 파일의 마지막 1KB를 비교하십시오. 파일의 처음 부분과 마지막 부분은 변경 될 수있는 서명, 내부 체크섬, 수정 데이터 등을 포함 할 가능성이 높습니다.

  4. 파일의 CRC32 체크섬을 비교하십시오. 걱정할 보안 조치가없는 한 암호화 해시 대신 CRC를 사용하십시오. CRC가 훨씬 빠릅니다.