일부 텍스트 분석을 수행하는 프로그램을 작성 중입니다.약식 단어를 원래 단어로 추출하는 알고리즘
약식 단어를 원래 단어로 푸는 것이 분석의 정확성을 향상시킬 것이라고 생각합니다. 그러나 구현할 생각은 없습니다. 나는 조금씩 검색했지만 어떤 기사 나 논문을 찾을 수 없다. (또는 어쩌면 나는 다만 적당한 키워드를 찾아 낼지도 모른다)
기본적으로 내가 필요로하는 것은 다음과 같다 : 단어 W가 주어진다면, 사전에서 W의 약식이 아닌 단어가 될 가능성이 가장 높은 단어를 찾는다. 약식 단어). 선택적으로 알고리즘을 인도네시아어와 호환되도록하고 싶습니다.
내 질문이 SO 질문에 다소 유사하다 : A string searching algorithm to quickly match an abbreviation in a large list of unabbreviated strings?하지만 그 질문은 그래서
2010 년, 어떤 생각에 요청에도 불구하고, 대답하지 않은? 미리 감사드립니다!