2014-06-18 4 views
2

kenlm 용지가 LM에 적합합니다. 나는 최소한의 문서가 주어지고, 이해하는데 어려움을 느낀다고 생각합니다.kenlm 쿼리 출력 형식 이해가 필요

그래서 kenlm을 이해할 때 모델을 쿼리하는 출력 형식을 이해해야합니다. 그것에 대해 자세히 설명해주십시오.

태그를 사용할 수 없으므로 lm, kenlm에 올바르게 태그 할 수 없습니다.

상세 : 실행 된

:

bin/query trainingdata.binary < temp.txt 

출력 : 출력 포맷의 포맷 단어 시퀀스

city=274 2 -3.71333 </s>=2 1 -0.914832 Total: -4.62817 OOV: 0 

new=1037 2 -2.64194 york=2124 2 -2.27023 </s>=2 1 -0.867251 Total: -5.77943 OOV: 0 

samsung=3 2 -2.39176 galaxy=4 3 -0.193832 s5=5 4 -0.536524 </s>=2 5 -0.595418 Total: -3.71753 OOV: 0 

fingers=6 2 -4.25789 crossed=7 3 -1.00535 samsung=3 4 -0.766757 </s>=2 5 -0.757035 Total: -6.78703 OOV: 0 

jessica=8 2 -3.77437 simpson=9 3 -0.45866 collection=10 4 -1.24209 </s>=2 5 -0.144034 Total: -5.61916 OOV: 0 

plexus=11 2 -4.46277 slim=12 3 -0.804323 </s>=2 4 -0.606899 Total: -5.87399 OOV: 0 

under=13 2 -3.23437 armour=14 3 -0.575785 outlet=15 4 -1.32109 </s>=2 5 -0.18898 Total: -5.32022 OOV: 0 

amazon=16 2 -2.05178 seller=17 3 -2.5683 central=18 4 -0.94366 </s>=2 5 -0.643415 Total: -6.20716 OOV: 0 

garcinia=19 2 -2.6464 cambogia=20 3 -0.101819 reviews=21 4 -1.86317 </s>=2 5 -0.0987858 Total: -4.71017 OOV: 0 

womens=22 2 -3.10627 organic=23 3 -1.64262 lube.=24 4 -1.12123 </s>=2 5 -0.505745 Total: -6.37587 OOV: 0 

doc=25 2 -3.00747 mcstuffins=26 3 -0.130808 </s>=2 4 -0.485077 Total: -3.62336 OOV: 0 
</s>=2 1 -0.975736 Total: -0.975736 OOV: 0 

Perplexity including OOVs: 30.9347 

Perplexity excluding OOVs: 30.9347 
OOVs: 0 

Total time including destruction: 

Name:query VmPeak:30664 kB VmRSS:1748 kB RSSMax:3132 kB user:0.000999 sys:0 CPU:0.000999 real:0.000817598 
+0

결과를 이해하는 것이 정확히 무엇입니까? 산출물의 샘플을 입력하여 어떤 부분을 얻지 못했는지 확인할 수 있습니다. – Daniel

+0

내가 질문 한 내용에 대한 세부 정보를 추가했는지 확인하십시오. –

+0

내부 temp.txt 란 무엇입니까? – Daniel

답변

2

이다

word=ID LENGTH LOG_PROB 

여기서 ID는 단어의 내부 ID (언어 모델에서), LENGTH는 n-gram 일치의 길이이고 LOG_PROB는 해당 단어의 확률입니다.

+0

답장을 보내 주셔서 감사합니다. '삼성 = 3 2 -2.39176 galaxy = 4 3 -0.193832 s5 = 5 4 -0.536524 = 2 5 -0.595418 Total : -3.71753 OOV : 0'도 이해해주십시오. 질문 : '1. samsung = 2 3 2 -2.39176은 삼성이 2-gram 단어로 발생했음을 의미합니까? 2. 이것은 무엇입니까 = 2 5 -0.595418입니까? ' 감사합니다. –