2014-01-29 5 views
2

잠재 용어 의미 분석 (LSA)을 배우고 있으며 용어 - 문서 행렬을 구성하고 SVD 분해를 찾을 수 있습니다. 분해에서 토픽을 얻으려면 어떻게해야합니까? gensim 예를 들어주제 찾기에서 잠재 의미 론적 분석

:

topiC#0(332.762): 0.425*"utc" + 0.299*"talk" + 0.293*"page" + 0.226*"article" + 0.224*"delete" + 0.216*"discussion" + 0.205*"deletion" + 0.198*"should" + 0.146*"debate" + 0.132*"be" 
topiC#1(201.852): 0.282*"link" + 0.209*"he" + 0.145*"com" + 0.139*"his" + -0.137*"page" + -0.118*"delete" + 0.114*"blacklist" + -0.108*"deletion" + -0.105*"discussion" + 0.100*"diff" 
topiC#2(191.991): -0.565*"link" + -0.241*"com" + -0.238*"blacklist" + -0.202*"diff" + -0.193*"additions" + -0.182*"users" + -0.158*"coibot" + -0.136*"user" + 0.133*"he" + -0.130*"resolves" 

답변

3

당신 수있는 U, S 및 SVD 분해의 V 행렬 얻을 : 주석의 질문에 대답 https://github.com/piskvorky/gensim/wiki/Recipes-&-FAQ#wiki-q4-how-do-you-output-the-u-s-vt-matrices-of-lsi

편집 :

인쇄 된 항목은 단순히 단위 길이로 정규화 된 행렬 U (= 왼쪽 특이 벡터)의 벡터입니다.

아마도 http://radimrehurek.com/gensim/tut2.html#transforming-vectors의 자습서가 도움이 될 수 있습니다.

실제로 인쇄되는 것은 특정 주제에 가장 많이 기여하는 상위 N 단어입니다 (기본값 = 상위 10 개 단어 인쇄).

당신은 오히려 간단합니다,이 주제는 여기에 계산하는 정확한 방법을 볼 수 있습니다 https://github.com/piskvorky/gensim/blob/0.8.9/gensim/models/lsimodel.py#L447

+0

감사 Radim, gensim의 개발자. 내 질문을 바꿔 보자 : 정확하게 계수 0.425, 0.299 등의 의미는 무엇입니까? U, S, V에서 어떻게 계산하나요? –