2014-12-21 16 views
0

저는 번역학 박사 과정 학생이며 현재 논문을 공부하고 있습니다. 나는 논문에서 분석 방법으로 LSA Similarity 인터페이스를 사용하고있다. 내 배경은 컴퓨터 과학이 아니라 언어학에 있습니다. 나는 쉬운 LSA 문서 카테고리 분류 도구를 찾으려고했지만 어떤 것도 찾을 수 없었다. 나는 Gensim으로 노는 것을 시도했다, 나는 일하지 않았다. 내 문제는 내 코퍼스 (txt 파일)를 Gensim 도구와 연결하여 분석하는 것입니다 (이 단계를 수행하는 방법을 모르겠습니다). 분석에 대한 도움을 주거나 Gensim을 사용하여 도구 또는 쉬운 자습서로 안내 할 수 있다면 크게 감사하겠습니다.LSA 유사 인터페이스

다음과 같이하고 싶습니다. 문서 관련 문서 쿼리를 적용하여 해당 문서에서 쿼리 문서로 가장 관련성이 높은 5 개의 문서를 검색하려고합니다.

  1. 나는 15 쿼리 문서
  2. 에게이 나는 텍스트가 짧은 이야기

나는 필사적이고 내가 여기이 질문을 게시 주저했다입니다 (150 텍스트) 중 하나 코퍼스 있습니다. 번역 연구에 LSA를 적용하면 현장에 추가 될 것이므로 이것이 내 분석을 할 수있는 방법을 찾기 위해 더 끈질 기게 만듭니다.

답변

0

바로 지금 LSA에 대한 사용이 쉬운 도구는 http://lsa.colorado.edu/입니다. 불행히도, 그것은 웹 기반 도구 일 뿐이며, LSA를 자신의 신체 조직에 맞게 훈련시킬 수는 없습니다. 그러나 귀하의 필요에 따라 그것은 중요하지 않을 수도 있습니다.

정확하게 이해하고 있다면 15 개의 쿼리 문서와 150 개의 단편 소설 각각 (15 * 150 = 2250 개의 유사도 점수 합계) 사이에 문서 - 문서 유사성 점수가 필요합니다.

  • 이동 http://lsa.colorado.edu/
  • 선택 원 -에 이러한 쿼리 문서와 단편 소설이 영어로되어 있습니다 경우 다음과 같이 LSA의 많은 연구에서 사용 된 TASA 영장에 훈련 LSA의 버전을 사용할 수 있습니다 To-Many 비교
  • "텍스트 비교"상자에서 빈 줄로 구분 된 15 개의 쿼리와 "기본 텍스트"상자에 짧은 스토리 중 하나 붙여 넣기
  • 각각의 단편 . 거대한 고통? 예. 파이썬 또는 R에 약간의 프로그램 경우

... 필사적 경우에, LSA를위한 다른 도구 http://clic.cimec.unitn.it/composes/toolkit/introduction.htmlhttp://cran.r-project.org/web/packages/lsa/lsa.pdf을 포함, 당신에게 위의 제안의 육체 노동을 저장합니다. 또한, 이미 Gensim을 사용해 봤지만, 아직 읽지 않았다면 다음을 시도 할 수도있는 http://radimrehurek.com/gensim/tutorial.html에 멋진 자습서가 있습니다.