2010-04-11 3 views
1

나는 파이썬을 가르치는 일환으로 교수형 집행자를 만날 수있는 스크립트를 작성했습니다. 현재, 교수형 집행자 단어는 스크립트 코드의 시작 부분에 수동으로 입력됩니다.영어 대명사가 아닌 큰 공백 블록

대용량의 영어 단어 목록에서 임의로 스크립트를 선택하고 싶습니다. 이 방법을 알고 있습니다 - 제 문제는 처음부터 작업 할 단어 목록을 찾는 것입니다.

누구나 인터넷상의 소스에 대해 알고 있습니까? 예를 들어 1000 개의 일반적인 영어 단어가 텍스트 블록이나 이와 비슷한 것으로 다운로드 될 수 있습니다.

(내 초기 생각은 프로젝트 gutenburg [이 프로젝트는 내 자신 만의 오락을위한 것이며 다른 어느 곳에도 사용할 수 없으므로 저작권 등은 내게 크게 중요하지 않다],하지만 무엇이든간에 소설의 덩어리를 움켜 잡고있었습니다. 그에게는 행맨에게 적당하지 않은 너무 많은 이름이나 비표준 단어가 포함될 가능성이 높습니다. 기본적으로 스크램블 용으로 합법적 인 단어 만있는 텍스트가 필요합니다.

내가 생각하기에는 다소 이상한 질문이지만, 실제로 나는 그 대답이 내게뿐만 아니라 다른 사람이 워드 게임이나 유사한 단어 작업을위한 프로젝트에서 일하는 것 같아서 생각했다. 에서.

답변

1

this이 유용할까요?

+0

매우 감사합니다 :) – Tom

0

이는/usr/share/DICT/단어를 시도 된 링크 또는 제안 :)에 대한

많은 감사?

+2

-1 그는 2 %의 시장 점유율을 가지고 있다고 가정하고 리눅스를 사용한다고 가정합니다. –

+0

: 젠장, 그거 좋은 생각이야. 감사! 편집 : 거기에는 많은 사람들의 이름, 두문자어 및 내용이 포함되어 있기 때문에 실제로 이상적은 아니지만 ... 적어도 당분간 함께 일할만한 것을 제공 할 것입니다. – Tom

0

텍스트 목록을 프로젝트 구텐베르크, 위키 백과 나 다른 소스에서 수동으로

잡아 텍스트를 작성합니다. 텍스트를 살펴보고 각 단어가 몇 번이나 있는지 계산하십시오. 가장 자주 발견되는 단어는 대명사, 접속사 등입니다. 그냥 버리십시오.

올바른 명사는 물론 텍스트가 이야기가 아니라면 성격 이름이 가장 자주 발견 될 가능성이 높습니다. 아마도 적절한 명사를 처리하는 가장 좋은 방법은 여러 가지 출처를 사용하고 단어가 몇 개나 있는지 파악하는 것입니다. 본질적으로 많은 출처에서 흔히 볼 수있는 단어는 고유 명사가 아닐 가능성이 큽니다. 하나의 텍스트 소스에 특정한 단어는 버릴 수 있습니다. 이 아이디어는 tfidf과 관련이 있습니다.

이러한 단어 빈도를 계산하면 단어를 살펴보고 필요에 따라 목록을 쉽게 조정할 수 있습니다.

사용 Wordnet는

또 다른 아이디어는 Wordnet에서 단어를 다운로드하는 것입니다. Wordnet은 품사에 많은 단어를 알려줍니다. 당신은 당신의 목적을 위해 명사와 동사에만 붙을 수 있습니다.