tf-idf

    0

    1답변

    tf와 idf를 계산할 수있는 다양한 방법이 있습니다. LSA 모델에서 gensim이 어떤 수식을 사용하는지 알고 싶습니다. 나는 소스 코드 lsimodel.py을 살펴 보았지만 문서 - 용어 행렬이 만들어지는 곳은 분명하지 않다. (아마 메모리 최적화 때문에). 가 one LSA paper에서 I 문서 기간 행렬의 각각의 셀은 그 단어의 엔트로피로 나누어

    0

    1답변

    이 책의 7 장 "TensorFlow 기계 학습 요리 책"데이터 처리에서 저자는 fit_transform scikit의 기능을 사용하여 tfidf 텍스트 훈련 기능을 익히십시오. 작성자는 열차를 분리하고 기능을 테스트하기 전에 모든 텍스트 데이터를 제공합니다. 그것은 진실한 행동입니까 아니면 먼저 데이터를 분리 한 다음 열차에서 tfidf fit_trans

    0

    1답변

    나는 유사성을 분석 할 필요가있는 수백 개의 txt 파일이있는 폴더가 있습니다. 다음은 유사성 분석을 실행하는 데 사용하는 스크립트의 예입니다. 결국 배열이나 행렬 등을 얻을 수 있습니다. cos_similarity > 0.5 (또는 다른 임계 값을 사용하기로 결정했습니다.) 동일한 파일을 비교할 때 cos_similarity == 1을 제거하면 얼마나 많

    2

    1답변

    저는 여전히 파이썬에 대한 지식이 커지면서 TfidfVectorizer가 붙어 있습니다. 나는 다른 질문들을 보았지만 지금까지 나를 도운 어떤 것도 발견하지 못했다. 제품 설명 목록에 tfidf_matrix를 만들려고하는데 실패하고 있습니다. (tokens_line)와 fit_transform와 AttributeError: 'list' object has

    0

    1답변

    아래에서 언급 한 내 코퍼스의 tf-idf 점수를 계산할 때 Gensim을 사용하고 있습니다. corpus=['human interface computer', 'survey user computer system response time', 'eps user interface system', 'system human system eps', 'user

    1

    1답변

    genf를 사용하여 다음과 같이 tf-idf 값을 계산합니다. texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'user', 'interface', 'system'], ['system', 'hum

    0

    1답변

    에서 'model.fit()'메서드의 입력으로 tfidf를 사용하는 중 오류 문서의 항목을 분석하기 위해 Python의 LDA 패키지를 사용했지만 용어 빈도를 메서드 입력으로 사용하면 괜찮습니다. ' 그러나 '타입 오류 :'안전 '에 따라 dtype ('float64 ')에서 dtype ('int64 ')으로 배열 데이터를 캐스트 할 수 없습니다. ****

    1

    1답변

    다음과 같이 tf-idf를 계산합니다. texts=['human interface computer', 'survey user computer system response time', 'eps user interface system', 'system human system eps', 'user response time'] dictionary = c

    0

    1답변

    저는 R에서 왔기 때문에 scikit API는 여전히 매우 혼란 스럽습니다. 나는이 튜토리얼 http://michelleful.github.io/code-blog/2015/06/20/pipelines/을 따라 파이프 라인에 대해 배웠다. 그래서 그냥 참조를 위해 가짜 데이터 집합을 만들 수 있습니다 : x1,x2,y foo,zoo,1 bar,moo,2

    0

    1답변

    TF_norm 행렬과 IDF 벡터에서 TF-IDF를 만들려고합니다. 나는 그들이 같은 차원을 가지고 있지 않다는 것을 알고 있습니다. 그래서 나는 어떻게이 둘을 번식시킬 수 있는지에 대해 분실합니다. TF_norm 행렬에 축소 문자를 추가하거나 IDF 벡터를 변환해야합니까? 여기에서 완전히 잃어 버렸습니다. #c) Normalized term frequen