우리가 만든 응용 프로그램의 경우 단어 예측을위한 간단한 통계 모델 (예 : Google Autocomplete)을 사용하여 검색을 안내합니다.그냥 다음 단어 대신 구문 예측
관련 텍스트 문서의 큰 코퍼스에서 수집 한 ngram 시퀀스를 사용합니다. 이전 N-1 단어를 고려하여 확률이 높은 순서대로 다음 단어를 제안합니다 (Katz back-off).
단일 단어 대신 여러 단어를 예측하기 위해이 내용을 확장하고자합니다. 그러나 구문을 예측할 때 접두어를 표시하지 않는 것이 좋습니다.
예를 들어, 입력 the cat
을 고려하십시오.
이 경우 the cat in the hat
과 같은 예측을하고 싶지 만 the cat in
&이 아닌 the cat in the
과 같은 예측을하고 싶습니다.
가정 :
이우리는 우리가 예를 들어 (텍스트 데이터를 태그하지 않는
과거 검색 통계에 액세스 할 수없는, 우리의 부품을 모르는 음성)
일반적인 w 이런 종류의 다중 단어 예측을 할 수 있습니까? 긴 구문의 곱셈 및 덧셈 가중치를 시도했지만 Google의 가중치는 임의적이며 테스트에 적합합니다.