2013-10-29 4 views
1

나는 gensim에서 LsiModel을 사용하여 10000 개의 메일 모음에서 주제를 모델링했습니다. 각 주제에 대한 단어와 단어 점수를 얻고 파일에 저장할 수 있습니다. 나는 print_topics()show_topics()을 사용해 보았지만 그 둘 모두는 해당 단어와 관련된 단어 & 만 반환합니다. 그러나 나는 또한 로그 파일에 출력하는 토픽 점수가 필요하다. 나는 그 값들을 변수에 넣기를 원한다. 이 로그 출력의 예는 다음과 같습니다.Gensim의 LSI 모델에서 토픽 점수를 얻는 방법은 무엇입니까?

2010-11-03 16:08:27,602 : INFO : topiC#0(200.990): -0.475*"delete" + -0.383*"deletion" + -0.275*"debate" + -0.223*"comments" + -0.220*"edits" + -0.213*"modify" + -0.208*"appropriate" + -0.194*"subsequent" + -0.155*"wp" + -0.117*"notability" 
2010-11-03 16:08:27,626 : INFO : topiC#1(143.129): -0.320*"diff" + -0.305*"link" + -0.199*"image" + -0.171*"www" + -0.162*"user" + 0.149*"delete" + -0.147*"undo" + -0.144*"contribs" + -0.122*"album" + 0.113*"deletion" 
2010-11-03 16:08:27,651 : INFO : topiC#2(135.665): -0.437*"diff" + -0.400*"link" + -0.202*"undo" + -0.192*"user" + -0.182*"www" + -0.176*"contribs" + 0.168*"image" + -0.109*"added" + 0.106*"album" + 0.097*"copyright" 
2010-11-03 16:08:27,677 : INFO : topiC#3(125.027): -0.354*"image" + 0.239*"age" + 0.218*"median" + -0.213*"copyright" + 0.204*"population" + -0.195*"fair" + 0.195*"income" + 0.167*"census" + 0.165*"km" + 0.162*"households" 
2010-11-03 16:08:27,701 : INFO : topiC#4(116.927): -0.307*"image" + 0.195*"players" + 0.184*"median" + -0.184*"copyright" + -0.181*"age" + -0.167*"fair" + -0.162*"income" + -0.151*"population" + -0.136*"households" + -0.134*"census" 

변수에이 점수가 필요합니다.

topiC#0 : 200.990 
topiC#1 : 143.129 
topiC#2 : 135.665 
topiC#3 : 125.027 
topiC#4 : 116.927 

이러한 출력을 얻는 방법은 패키지에 있습니까? 도와주세요.

답변

2

예. 이것들은 각 요소와 관련된 특이 값입니다.

model.projection.s에서 얻을 수 있습니다.