2014-12-19 3 views
0

일부 텍스트 분석을 수행하는 프로그램을 작성 중입니다.약식 단어를 원래 단어로 추출하는 알고리즘

약식 단어를 원래 단어로 푸는 것이 분석의 정확성을 향상시킬 것이라고 생각합니다. 그러나 구현할 생각은 없습니다. 나는 조금씩 검색했지만 어떤 기사 나 논문을 찾을 수 없다. (또는 어쩌면 나는 다만 적당한 키워드를 찾아 낼지도 모른다)

기본적으로 내가 필요로하는 것은 다음과 같다 : 단어 W가 주어진다면, 사전에서 W의 약식이 아닌 단어가 될 가능성이 가장 높은 단어를 찾는다. 약식 단어). 선택적으로 알고리즘을 인도네시아어와 호환되도록하고 싶습니다.

내 질문이 SO 질문에 다소 유사하다 : A string searching algorithm to quickly match an abbreviation in a large list of unabbreviated strings?하지만 그 질문은 그래서

2010 년, 어떤 생각에 요청에도 불구하고, 대답하지 않은? 미리 감사드립니다!

답변

2

인도네시아어에 대한 지식이 없어도 나의 첫 번째 단계는 공통 약어 목록을 얻는 것입니다. 사전 검색 만하면됩니다.

viz. => namely 
i.e. => that is 
fr. => from 
Fr. => France, French 
abbr. => abbreviated, abbreviation 

어떤 확장을 선택할지 결정하는 방법은 자체 웜의 깡통입니다. 내가 빨리 구상 할 수있는 예는 서로 다른 부분이기 때문에 형용사가 문장에 들어 맞는 형용사를 선택하십시오. 일반적인 경우에는 애매한 단어처럼 일부 약어가 진정으로 모호하다는 사실에 대처해야합니다. 어쨌든 그 모든 것을 확장하지 않아도됩니다.

약자의 경우 사전에 없으므로 아마도 단어 목록, 주파수 및/또는 음성 정보로 단어를 검색하여 가장 인기있는/가장 인기있는 정보를 선택할 수 있습니다 여러 개의 접두사가 일치합니다. 그 정보가 없다면, 나는 조잡한 발견 적 방법을 사용하여 항상 가장 짧은 성냥을 선택합니다.

0

컨텍스트는 모든 약어입니다. 귀하의 "가장 높은 확률"일치는 약어의 컨텍스트가 확장의 (의도 된) 컨텍스트와 일치하는 경우로 거의 확실합니다.

물론 많은 수의 가능한 확장이있는 특정 약어로 표시되는 것처럼 가능한 많은 컨텍스트가 있다는 것이 문제입니다. 또한 약어의 컨텍스트를 정의하는 데 어려움이 있습니다.

10-20 개의 다른 컨텍스트에 대해서만 제한을 해제 한 다음 다소 대략적인 일치를 수행 할 수 있습니다. 나는 그것이 높은 에러율을 보일 것이라고 확신한다. 컨텍스트를 수동으로 추가/확인하려면 많은 작업이 필요합니다.