2017-02-07 15 views
0

구현중인 두 가지 기능에 대한 새로운 아이디어를 찾고 있습니다.분할 및 배열

1) 텍스트 분할 기능 : 배열의

Ex: 
        User Query:     Resolved Query: 
        -----------     --------------- 
      It has lotsofwordstogether It has lots of words together 

    I am using normal recursion or DP solution using unigrams probability. 

2) 종류 :

Ex: 
     User Query:      Resolved Query: 
     ----------      --------------- 
    I like t shirts in Wal mart  I like t-shirts in Walmart 

이에 어떻게 단서. 필자가 생각한 아이디어는 현재 문장을 토큰 화하고 의미가없는 토큰을 이전 토큰 또는 다음 토큰과 결합하여 유니 그램과 대조 할 수있는 단어를 만듭니다.

이러한 솔루션은 제 요구 사항 (특히 첫 번째 요구 사항)이 느립니다. 이러한 기능을 함께 사용하고 싶습니다. 더 나은 아이디어를 찾고 있습니다.

답변

0

표준 접근 방식에는 문자 n-gram이 관련되어 있습니다.

그래서 'wal mart'는 'wal' 'alm' 'lma' 'mar' 'art'가 될 것입니다.

+0

이 필드를 처음 접했습니다. 이 책에 대한 책이나 온라인 자료를 가르쳐 주시겠습니까? T 셔츠는 문자 n 그램을 사용하여 어떻게 해결할 수 있습니까? – starkk92

0

문제 1)에서 단어 경계를 찾는 경우 동아시아 언어 토큰 화에 기존 알고리즘을 사용할 수 있습니다. 그들은 일반적으로 숨겨진 마르코프 모델을 적용 포함 :

http://dev.datasift.com/blog/using-japanese-tokenization-generate-more-accurate-insight

https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

나는 또한 CKY 알고리즘을 적용 생각할 수

(문맥 자유 문법 구문 분석에 사용), 당신이 제공하는 사전을 찾을 수 있습니다 특별히 경우 음절 분류 및 음절 인벤토리로 구성됩니다.

문제 2), 제 생각에 이것은 맞춤법 교정의 한 예일뿐입니다. 다른 캐릭터를 다루는 것처럼 공간을 처리하십시오.

더 많은 링크를 게시 하겠지만 충분한 평판이 없습니다.

이들은 쉬운 문제가 아닙니다. 행운을 비네!