2014-01-27 5 views
1

다시 작성 :텍스트 문서에서 기술 키워드 추출하기

나는 컴퓨터 과학 관련 문서가 있습니다. 도메인 관련 키워드를 추출하고 싶습니다. 예를 들어 JAVA, C#, HTML, OOP, UML, Unity 등. 옥스포드 사전과 비슷한 소스를 찾고 있었지만 API가 아직 실행되지 않았습니다. 나는 또한 컴퓨터 과학 용어에 대한 Webopedia를 시도했지만 포괄적이지 않고 업데이트 된 것은 아닙니다 (예 : F #과 같은 내 문서에 일부 단어가 포함되어 있지 않음). 또는 Wikipedia의 경우 모든 용어가 모두 나열되어 있지 않습니다. 해당 키워드를 추출하기위한보다 포괄적 인 출처 또는 적절한 접근법이 있습니까? 파이썬을 NLTK와 함께 사용하고 있습니다. 예를 들어 tf-idf는 일부 도메인 관련 단어가 모든 문서에서 거의 공통적이기 때문에 유용하지 않습니다. 따라서 해당 단어는 높은 평점을 얻지 못합니다. POS 태그를 사용할 수 있다면 도움이 될 것이라고 생각하지만 어떤 옵션이 내 응용 프로그램에 가장 적합한 지 잘 모르겠습니다.

"자바 스크립트, JSON 및 AJAX에서 전문가 수준의 능력을, 및 JQuery와 같은 자바 스크립트 프레임 워크에 대한 깊은 지식"나는이 말을 추출 할 여기에 : 아래의 예를 들어 문자열을 받아 [ '자바 스크립트' 'JSON', 'AJAX', 'Frameworks', 'JQuery']하지만 NLTK의 POS 태그를 사용하여 명사를 검색하면 '수준', '기능', '지식'을 얻게됩니다. 도움 주셔서 감사합니다.

+1

모집 데이터베이스? –

+2

"필요한 모든 개념과 기술"- D3, three.js 또는 F #은 어떻게 "필요"합니까? – user2357112

+1

나는 왜이 질문에 투표가 내려 졌는지 모르겠습니다. @ user2357112 알고 계시 겠지만 F #, API 및 라이브러리와 같은 언어가 항상 직업 게시의 기술로 나열되므로 내 질문의 경우 무엇이 당신을 혼란스럽게하는지 확신 할 수 없습니다. – Mina

답변

5

왜 StackOverflow 데이터 덤프를 다운로드하고 태그를 필터링하는 프로그램을 작성하지 않으십니까?

그들은 단지 archive.org에 출시 된

물론 here

, 그것은 모든 용어가 포함되지 것보고 몇 가지 잘못된 반응이있을 것이다, 그러나 나는 이것이 당신이 얻을 것이다만큼이나 가까운 가정합니다.

+1

이것은 아주 좋은 생각입니다. 나는 그것을 시도 할 것입니다. – Mina

+1

나는 그것을 시도하고 실제로 매우 매우 도움이됩니다! Thanksss – Mina

+0

@ 미나, 당신이 구문 분석 stackoverflow에서 태그 목록을 공유 할 수 있습니까? – guilhermecgs