2010-01-27 7 views
5

텍스트 blob에서 이름을 필터링하려고합니다. 현재 단어 목록을 생성하고 손으로 필터링하고 있지만 ~ 8k 단어가 있으므로 더 나은 방법을 찾고 있습니다. 나는 사전을 붙잡고 그들을 걸러 낼 수 있었다. 그러나 그것은 스미스와 벼랑과 같은 이름을 추려 낼 것이다.고유 이름 목록?

내가 필요하면 다음 중 하나입니다 : 일반적인 이름의

  • 목록
  • 또한 단어
  • 될 일이 이름 목록 (I은> 5K 가장 일반적인 이름이 필요할 것)

내가 그 사이에있는 그림으로, 내가 필요로하는 것을 얻기 위해 블랙리스트/화이트리스트를 결합 할 수 있습니다.

+0

일반적인 이름은 무엇입니까? 또는 어떤 나라에서든, "Ali"는 아랍어 이름 임에도 불구하고 미국에서 꽤 유명하기 때문입니다. –

+0

@ 존, 일어나는대로, 대부분은 영어이지만 그 후에는 무엇이든합니다. "또한 단어"비트에 관해서는; 영어. – BCS

답변

5

미국 인구 이름 목록 : http://www.census.gov/genealogy/www/

어쨌든, 당신에게이 문제에 대한 하나의 각도를 얻어야한다.

편집 됨 변경된 URL은 페이지 이동에 대한 설명 아래에 있습니다. 아무도 HTTP 302를 더 이상 믿지 않습니까? 내가 Quora에서 발견 포스트에서

+0

그렇게해야합니다. – BCS

+0

인구 조사는 약간 구식 일 수 있으며 빈번한 이름 만 포함 할 수 있습니다. 예를 들어 Barak는 male.first 목록에서 찾을 수 없으며 오바마는 all.last 파일에서 찾을 수 없습니다. 예를 들어 서면 텍스트 뉴스 출처, 블로그, 트윗 등 – ScienceFriction

+1

census.gov 링크를 클릭하면 404가 표시됩니다. Census 사이트의 계보 데이터의 새로운 최상위 홈 인 것처럼 보입니다 : http://www.census.gov/genealogy/www/. – BrianC

2

:

CMU의 넬 프로젝트는 웹에서 고유 명사의 거대한 목록을 수집 유형을 분류하고있다. 온라인에서는 NELL KnowledgeBase Browser을 검색하고 데이터는 Resources & Data에서 다운로드 할 수 있습니다. personUS, 말, 대한 결과를 긁어

웹 내가 그들의 큰 탭으로 구분 된 CSV 파일에서 "사람"로 태그 문구에서 이름의 목록을 추출하는,했던 것보다 더 효율적으로 보인다. 어느 쪽이든 당신은 정규식을 사용하게 될 것입니다.