각각 약 40/50 바이트의 약 1 억 2 천만 레코드 목록을 보유하고 있습니다.이 메모리는 약 5.5/6 기가 바이트의 원시 메모리 공간으로 메모리에 배열.데이터 세트에서 고유 한 목록을 만들어 메모리에 저장하기에 너무 크다
이 목록이 고유한지 확인하고 싶습니다. 내가 시도한 방식은 Hashset < 문자열 >을 생성하고 하나씩 차례로 모든 항목을 추가하는 것입니다.
약 3 천 3 백만 건의 레코드가 생기면 나는 기억이 나지 않아 목록 생성이 느려지 게됩니다.
이 대량의 항목을시기 적절하게 정렬하는 더 좋은 방법이 있습니까? 내가 생각할 수있는 유일한 해결책은 Amazon EC2 하이 - 메모리 쿼드 러플 엑스트라 라지 인스턴스를 1 시간 동안 사용하는 것입니다. 그냥 고유성을 확인하려는 경우
감사
저장하고있는 데이터 세트는 어디에 있습니까? –