나는 자연어 처리 응용 프로그램을 작성 중입니다. 30 개의 도메인을 설명하는 텍스트가 있습니다. 각 도메인은이를 설명하는 짧은 단락으로 정의됩니다. 제 목표는이 텍스트에서 동의어 사전을 작성하여 어느 도메인이 관련된 입력 string
을 확인할 수 있도록하는 것입니다. 텍스트는 약 5000 단어이고 각 도메인은 150 단어로 설명됩니다. 내 질문은 다음과 같습니다.코퍼스에서 시소러스 만들기
동의어 사전을 만들려면 충분한 텍스트가 있습니까?
시소러스 합법을 만드는 것이 제 생각입니까 아니면 NLP 라이브러리를 사용하여 자료와 입력 문자열을 분석해야합니까?
현재 색인 생성 방식을 생각 했으므로 도메인별로 그룹화 된 각 단어의 총 수를 계산했습니다. 그러나 나는 어떤 방법이 최선인지 정말로 모른다. 누군가 NLP와 시소러스 건물 모두에서 경험이 있습니까?
내 목표는 시소러스를 구축하거나 구축하지 않는 것이고, 내 애플리케이션의 사용자가 그들이 말하는 도메인을 결론 짓기 위해 작성하는 것을 이해하는 것입니다. 동의어/반의어 사전을 만드는 것이 포함된다면 나는 그것을 만들 것이다. 그러나 그것을합니까? "기존 리소스를 사용하여 시스템을 구축"한다는 것은 무엇을 의미합니까? 어떤 자료를 생각하고 있습니까? 도움 주셔서 감사합니다. – Kabulan0lak
많은 리소스 (lexicons, tokenizer, stemmer, parser, named entity recognizer 등)가 있으므로 조합하여 시스템을 구축 할 수 있어야합니다. 동의어/반의어 사전의 경우 Wordnet (무료)부터 시작할 수 있습니다. – Pierre
감사합니다. 나는 존재하는 것으로 모든 것을 할 것입니다. – Kabulan0lak