텍스트 blob에서 이름을 필터링하려고합니다. 현재 단어 목록을 생성하고 손으로 필터링하고 있지만 ~ 8k 단어가 있으므로 더 나은 방법을 찾고 있습니다. 나는 사전을 붙잡고 그들을 걸러 낼 수 있었다. 그러나 그것은 스미스와 벼랑과 같은 이름을 추려 낼 것이다.고유 이름 목록?
내가 필요하면 다음 중 하나입니다 : 일반적인 이름의
- 목록
- 또한 단어 될 일이 이름 목록 (I은> 5K 가장 일반적인 이름이 필요할 것)
내가 그 사이에있는 그림으로, 내가 필요로하는 것을 얻기 위해 블랙리스트/화이트리스트를 결합 할 수 있습니다.
일반적인 이름은 무엇입니까? 또는 어떤 나라에서든, "Ali"는 아랍어 이름 임에도 불구하고 미국에서 꽤 유명하기 때문입니다. –
@ 존, 일어나는대로, 대부분은 영어이지만 그 후에는 무엇이든합니다. "또한 단어"비트에 관해서는; 영어. – BCS