다시 작성 :텍스트 문서에서 기술 키워드 추출하기
나는 컴퓨터 과학 관련 문서가 있습니다. 도메인 관련 키워드를 추출하고 싶습니다. 예를 들어 JAVA, C#, HTML, OOP, UML, Unity 등. 옥스포드 사전과 비슷한 소스를 찾고 있었지만 API가 아직 실행되지 않았습니다. 나는 또한 컴퓨터 과학 용어에 대한 Webopedia를 시도했지만 포괄적이지 않고 업데이트 된 것은 아닙니다 (예 : F #과 같은 내 문서에 일부 단어가 포함되어 있지 않음). 또는 Wikipedia의 경우 모든 용어가 모두 나열되어 있지 않습니다. 해당 키워드를 추출하기위한보다 포괄적 인 출처 또는 적절한 접근법이 있습니까? 파이썬을 NLTK와 함께 사용하고 있습니다. 예를 들어 tf-idf는 일부 도메인 관련 단어가 모든 문서에서 거의 공통적이기 때문에 유용하지 않습니다. 따라서 해당 단어는 높은 평점을 얻지 못합니다. POS 태그를 사용할 수 있다면 도움이 될 것이라고 생각하지만 어떤 옵션이 내 응용 프로그램에 가장 적합한 지 잘 모르겠습니다.
"자바 스크립트, JSON 및 AJAX에서 전문가 수준의 능력을, 및 JQuery와 같은 자바 스크립트 프레임 워크에 대한 깊은 지식"나는이 말을 추출 할 여기에 : 아래의 예를 들어 문자열을 받아 [ '자바 스크립트' 'JSON', 'AJAX', 'Frameworks', 'JQuery']하지만 NLTK의 POS 태그를 사용하여 명사를 검색하면 '수준', '기능', '지식'을 얻게됩니다. 도움 주셔서 감사합니다.
모집 데이터베이스? –
"필요한 모든 개념과 기술"- D3, three.js 또는 F #은 어떻게 "필요"합니까? – user2357112
나는 왜이 질문에 투표가 내려 졌는지 모르겠습니다. @ user2357112 알고 계시 겠지만 F #, API 및 라이브러리와 같은 언어가 항상 직업 게시의 기술로 나열되므로 내 질문의 경우 무엇이 당신을 혼란스럽게하는지 확신 할 수 없습니다. – Mina