고유 이름 목록?

텍스트 blob에서 이름을 필터링하려고합니다. 현재 단어 목록을 생성하고 손으로 필터링하고 있지만 ~ 8k 단어가 있으므로 더 나은 방법을 찾고 있습니다. 나는 사전을 붙잡고 그들을 걸러 낼 수 있었다. 그러나 그것은 스미스와 벼랑과 같은 이름을 추려 낼 것이다.고유 이름 목록?

내가 필요하면 다음 중 하나입니다 : 일반적인 이름의

목록
또한 단어

내가 그 사이에있는 그림으로, 내가 필요로하는 것을 얻기 위해 블랙리스트/화이트리스트를 결합 할 수 있습니다.

출처

2010-01-27 BCS

일반적인 이름은 무엇입니까? 또는 어떤 나라에서든, "Ali"는 아랍어 이름 임에도 불구하고 미국에서 꽤 유명하기 때문입니다. –

@ 존, 일어나는대로, 대부분은 영어이지만 그 후에는 무엇이든합니다. "또한 단어"비트에 관해서는; 영어. – BCS

미국 인구 이름 목록 : http://www.census.gov/genealogy/www/

어쨌든, 당신에게이 문제에 대한 하나의 각도를 얻어야한다.

편집 됨 변경된 URL은 페이지 이동에 대한 설명 아래에 있습니다. 아무도 HTTP 302를 더 이상 믿지 않습니까? 내가 Quora에서 발견 포스트에서

출처

2010-01-27 22:58:07 fennec

그렇게해야합니다. – BCS

인구 조사는 약간 구식 일 수 있으며 빈번한 이름 만 포함 할 수 있습니다. 예를 들어 Barak는 male.first 목록에서 찾을 수 없으며 오바마는 all.last 파일에서 찾을 수 없습니다. 예를 들어 서면 텍스트 뉴스 출처, 블로그, 트윗 등 – ScienceFriction

census.gov 링크를 클릭하면 404가 표시됩니다. Census 사이트의 계보 데이터의 새로운 최상위 홈 인 것처럼 보입니다 : http://www.census.gov/genealogy/www/. – BrianC

CMU의 넬 프로젝트는 웹에서 고유 명사의 거대한 목록을 수집 유형을 분류하고있다. 온라인에서는 NELL KnowledgeBase Browser을 검색하고 데이터는 Resources & Data에서 다운로드 할 수 있습니다. personUS, 말, 대한 결과를 긁어

웹 내가 그들의 큰 탭으로 구분 된 CSV 파일에서 "사람"로 태그 문구에서 이름의 목록을 추출하는,했던 것보다 더 효율적으로 보인다. 어느 쪽이든 당신은 정규식을 사용하게 될 것입니다.

출처

2016-06-21 15:57:40 Noumenon

답변

관련 문제