html 페이지에서 관련 키워드를 추출하고 싶습니다.일반적인 영어 단어 전략 제거
나는 이미 모든 html 파일을 훑어보고, 단어로 단어를 분할하고, 줄기를 사용하고, lucene에서 정지 단어 목록에 나타나는 모든 단어를 제거했습니다.
하지만 지금은 여전히 가장 일반적인 단어로 기본 동사와 대명사가 많이 있습니다.
lucene이나 snowball 또는 "I, is, go, went, am, it, were, we, you, us ..."와 같은 모든 것들을 걸러 낼 수있는 방법이나 단어 집합이 있습니까? . "