이것은 (아마도) 모든 고급 프로그래밍 언어에 적용되는 일반적인 질문입니다. 여기 상황은 다음과 같습니다.고유 단어 수
문자열 배열이 있다고 가정합니다. 말하자면, 짧은 이야기의 500,000 문자열을 배열에 넣을 수있었습니다 (입력 형식에 대한 옵션이 없다고 가정). 결과적으로 중복되는 항목이 임의의 수만큼 존재할 가능성이 큽니다.
문자열의 배열을 가져 와서 해당 배열의 고유 한 하위 집합 (?)을 포함하는 다른 배열을 만들려고합니다 (즉 중복되지 않음). 이 시나리오에서 입출력은 모두 배열이어야하므로 다양한 옵션에서 제한 될 수 있습니다.
성능면에서 가장 빠른 방법은 무엇입니까? 나는 현재 단어가 존재 하는지를 검사하기 위해 선형 검색을 사용하고 있지만, 선형 검색이므로 작업하기에 무리한 문자열이있는 경우 특히 더 빠른 방법이있을 수 있다고 생각합니다. 더 큰 소설처럼!
해시 기반 집합 인지도는 키와 값이 있음을 의미하지만이 값을 사용하여 개수를 저장할 수 있습니다. – vickirk
예, 미안 해요, 나는 해시 세트를 의미했습니다. 편집 됨. – CAFxX