2014-06-12 8 views
1

나는 자연어 처리 응용 프로그램을 작성 중입니다. 30 개의 도메인을 설명하는 텍스트가 있습니다. 각 도메인은이를 설명하는 짧은 단락으로 정의됩니다. 제 목표는이 텍스트에서 동의어 사전을 작성하여 어느 도메인이 관련된 입력 string을 확인할 수 있도록하는 것입니다. 텍스트는 약 5000 단어이고 각 도메인은 150 단어로 설명됩니다. 내 질문은 다음과 같습니다.코퍼스에서 시소러스 만들기

동의어 사전을 만들려면 충분한 텍스트가 있습니까?

시소러스 합법을 만드는 것이 제 생각입니까 아니면 NLP 라이브러리를 사용하여 자료와 입력 문자열을 분석해야합니까?

현재 색인 생성 방식을 생각 했으므로 도메인별로 그룹화 된 각 단어의 총 수를 계산했습니다. 그러나 나는 어떤 방법이 최선인지 정말로 모른다. 누군가 NLP와 시소러스 건물 모두에서 경험이 있습니까?

답변

1

시소러스를 만드는 것이 목표라면 시소러스를 작성하십시오. 시소러스를 만드는 것이 목표가 아니라면, 거기서 사용할 수있는 물건을 더 잘 사용하십시오.

더 일반적으로 NLP의 모든 작업 (데이터 수집에서 기계 번역까지)은 기술적 인 측면과 이론적 인 측면에서 많은 문제에 직면하게됩니다. 이러한 문제가 있기 때문에 경로에서 벗어나는 것이 매우 쉽습니다. 대부분의 시간 - 매혹적인.

작업이 무엇이든간에 기존 리소스를 사용하여 시스템을 구축하십시오. 그렇다면 큰 그림을 얻습니다. 그러면 구성 요소 A 또는 B의 개선을 생각할 수 있습니다.

행운을 빈다.

+0

내 목표는 시소러스를 구축하거나 구축하지 않는 것이고, 내 애플리케이션의 사용자가 그들이 말하는 도메인을 결론 짓기 위해 작성하는 것을 이해하는 것입니다. 동의어/반의어 사전을 만드는 것이 포함된다면 나는 그것을 만들 것이다. 그러나 그것을합니까? "기존 리소스를 사용하여 시스템을 구축"한다는 것은 무엇을 의미합니까? 어떤 자료를 생각하고 있습니까? 도움 주셔서 감사합니다. – Kabulan0lak

+0

많은 리소스 (lexicons, tokenizer, stemmer, parser, named entity recognizer 등)가 있으므로 조합하여 시스템을 구축 할 수 있어야합니다. 동의어/반의어 사전의 경우 Wordnet (무료)부터 시작할 수 있습니다. – Pierre

+0

감사합니다. 나는 존재하는 것으로 모든 것을 할 것입니다. – Kabulan0lak

2

당신이 찾고있는 것이 주제 모델링이라고 생각합니다. 어떤 단어가 주어지면 그 단어가 속한 도메인의 확률을 얻고 싶습니다. LDA (Latent Dirichlet Algorithm)를 구현하는 선반 알고리즘을 사용하는 것이 좋습니다. 또는 David Blei's website을 방문 할 수도 있습니다. 그는 LDA와 주제 모델링을 구현하는 훌륭한 소프트웨어를 작성했습니다. 또한 그는 초보자를 대상으로하는 주제 모델링을위한 자습서를 여러 개 발표했습니다.

+0

당신은 "잠복 딜리클릿 할당"을 의미합니다 ... 맞습니까? – Pierre

+0

내가 찾고있는 것 같습니다. 꽤 관련성이 높은 HMM (Markov) 알고리즘에 대해서도 들었습니다. 두 명을 연구하고 어떻게 사용해야하는지 살펴 보겠습니다. 대단히 감사합니다. – Kabulan0lak