2012-05-22 2 views
0

그래서 "냉장고 자석"을 대화 형으로 만들고 사용자가 드래그 할 단어에 대한 유효한 데이터 집합을 알아 내려고했습니다.기본 문구를 구성하는 일반 단어의 데이터 집합

곳이 작업을 수행 할 수

+0

[google은 더 일반적인 영어 단어를 알고 있습니다.] (https://www.google.com/webhp?sourceid=chrome-instant&ie=UTF-8&ion=1#hl=en&sclient=psy-ab&q=common%20english%20word% 20list & oq = & aq = & aqi = & aql = & gs_l = & pbx = 1 & fp = 3ea52b9c0e6750ee & ion = 1 & bav = on.2, 또는 .r_gc.r_pw.r_cp.r_qf., cf.osb & biw = 1538 & bih = 761). – Xeoncross

답변

2

한 가지 방법은 자신이 단어 이상의 유효한 세트를 찾기 위해 나는이 데이터 세트를 사용하고 있습니다 ..하지만

http://en.wikipedia.org/wiki/Most_common_words_in_English

과 아이디어를이 크지 않다 텍스트의 코퍼스를 다운로드 한 다음 나타나는 각 단어의 수를 세는 스크립트를 실행하십시오. 그런 다음 일부 값 N을 선택하고 모든 계수를 N (반올림)으로 나눕니다. 각 단어에 대해, 각각의 분량에 대해 자석을 만드십시오. 마지막으로 몇 개의 자석을 원하는지를 기준으로 N을 선택해야합니다.

이것은 자석의 분포가 단어의 분포와 일치하는 이점이 있습니다. 예를 들어, "the"가 1000 번, "man"이 320 번, "walk"이 150 번, "skips"가 2 번 나타나고 N을 100이라고 선택하면 결국 " 자석, 3 "남자", 1 "걷기"및 0 "건너 뛰기".

계산의 대수를 사용하여 기울이기를 줄이고 줄일 수도 있습니다. 단어 배포본이 Zipfian이므로 각 "걷기"에 대해 수천 개의 "the"자석으로 끝날 수 있습니다.

마지막으로,이 방법에 대한 좋은 점은 특정 도메인에서 실행하여 해당 도메인에 대해 설정된 자석을 만들 수 있다는 것입니다. 예를 들어, 뉴스 기사처럼 들리는 단어 자석을 만들고 싶다면 뉴스 기사의 모음으로이를 실행하십시오. 당신이 동화처럼 들리는 단어 자석을 만들고 싶다면, 동화의 모음에서 그것을 실행하십시오.

정말 궁금하다면 TF-IDF과 같은 것을 사용하여 해당 도메인을 가장 잘 대표하는 단어를 골라내어 공통 기능 단어와 섞을 수 있습니다.