2013-08-26 10 views
3
나는이 링크에 LSA에 튜토리얼을 진행하기 위해서 노력하고

(편집 년 7 월 2017 죽은 링크를 제거) :잠재 의미 분석 (LSA) 튜토리얼

다음

이 튜토리얼의 코드
titles = [doc1,doc2] 
stopwords = ['and','edition','for','in','little','of','the','to'] 
ignorechars = ''',:'!''' 

class LSA(object): 
    def __init__(self, stopwords, ignorechars): 
     self.stopwords = open('stop words.txt', 'r').read() 
     self.ignorechars = ignorechars 
     self.wdict = {} 
     self.dcount = 0   
    def parse(self, doc): 
     words = doc.split(); 
     for w in words: 
      w = w.lower() 
      if w in self.stopwords: 
       continue 
      elif w in self.wdict: 
       self.wdict[w].append(self.dcount) 
      else: 
       self.wdict[w] = [self.dcount] 
     self.dcount += 1  
    def build(self): 
     self.keys = [k for k in self.wdict.keys() if len(self.wdict[k]) > 1] 
     self.keys.sort() 
     self.A = zeros([len(self.keys), self.dcount]) 
     for i, k in enumerate(self.keys): 
      for d in self.wdict[k]: 
       self.A[i,d] += 1 
    def calc(self): 
     self.U, self.S, self.Vt = svd(self.A) 
    def TFIDF(self): 
     WordsPerDoc = sum(self.A, axis=0)   
     DocsPerWord = sum(asarray(self.A > 0, 'i'), axis=1) 
     rows, cols = self.A.shape 
     for i in range(rows): 
      for j in range(cols): 
       self.A[i,j] = (self.A[i,j]/WordsPerDoc[j]) * log(float(cols)/DocsPerWord[i]) 
    def printA(self): 
     print 'Here is the count matrix' 
     print self.A 
    def printSVD(self): 
     print 'Here are the singular values' 
     print self.S 
     print 'Here are the first 3 columns of the U matrix' 
     print -1*self.U[:, 0:3] 
     print 'Here are the first 3 rows of the Vt matrix' 
     print -1*self.Vt[0:3, :] 

mylsa = LSA(stopwords, ignorechars) 
for t in titles: 
    mylsa.parse(t) 
mylsa.build() 
mylsa.printA() 
mylsa.calc() 
mylsa.printSVD() 

나는 그것을 읽고 다시 읽었지만, 나는 무엇인가를 알 수 없다. 내가 코드를 실행하면 결과가 될 것입니다 다음

가 어떻게 그 행렬에서 DOC1 및 doc2의 유사성을 파악할 수

Here are the singular values 
[ 4.28485706e+01 3.36652135e-14] 
Here are the first 3 columns of the U matrix 
[[ 3.30049181e-02 -9.99311821e-01 7.14336493e-04] 
[ 6.60098362e-02 1.43697129e-03 6.53394384e-02] 
[ 6.60098362e-02 1.43697129e-03 -9.95952378e-01] 
..., 
[ 3.30049181e-02 7.18485644e-04 2.02381089e-03] 
[ 9.90147543e-02 6.81929920e-03 6.35728804e-03] 
[ 3.30049181e-02 7.18485644e-04 2.02381089e-03]] 
Here are the first 3 rows of the Vt matrix 
array([[ 0.5015178 , 0.86514732], 
    [-0.86514732, 0.5015178 ]]) 
? 내가 작성한 tfidf 알고리즘에서, 결과적으로 간단한 float 수와 여기에 3 개의 행렬이 있습니다. 어떤 충고?

+0

자습서 링크는 스팸 웹 사이트로 이동합니다. –

+0

제거되었습니다. 지금 죽은 것처럼 보입니다. – Tasos

답변

0

한 가지 옵션은 두 행렬간에 코사인 유사성을 실행하는 것입니다. 언젠가 전에 게시 한 좋은 정보를 찾을 수있을 것 같습니다. 또한 질문에 대한 답변을 게시했으며 다른 사람들도 큰 대답을 얻었음을 알았습니다.

Python: tf-idf-cosine: to find document similarity