tf-idf

    -2

    1답변

    사이의 의미 상 유사성을 자동으로 계산하는이 링크 link1 및 link2의 코드를 기반으로 프로그램을 작성하는 데 도움이 필요합니다. 연속적인 문장 및 b. 문장은 1 개의 중재 문구, 전체 및 전체 문장 (1000 문장)으로 구분됩니다. 제공된 코드가 이미 토큰 화되어 의미 상 유사성을 찾을 수 있지만 전체 텍스트 (a, b)에 걸쳐 연속 및 "중간"문

    0

    1답변

    sklearn의 TfIdfVectorizer를 사용하려고합니다. 내 입력이 아마도 TfIdfVectorizer 요구 사항과 일치하지 않기 때문에 문제가 발생했습니다. 로드 된 JSON을 목록에 추가했습니다. 이제는 TfIdfVectorizer를 사용하기위한 코퍼스가되기를 바랍니다. 코드 : import json import pandas from skle

    3

    1답변

    일부 오류를 수정하기 위해 link which is nicely colour coded에서 4 개의 사소한 변경 사항을 포함하여 일부 코드를 조합했습니다. 또한 이전 포럼 2 개에서 일부 코드를 사용했습니다. 코드에서 수행해야하는 작업은 전체 텍스트에서 연속되는 문장 사이의 의미 상 유사성을 계산 한 다음 이와 같이 얻은 모든 유사성 값을 표시하는 것입니다

    0

    1답변

    SolrJ 6.3을 사용하여 Solr 쿼리에서 solr 쿼리에 대한 모든 문서를 가져올 수 있습니다. solr (tf, idf 및 field norm을 사용하여) 문서 순위를 매길 수 있습니다. 모든 문서에 대해 점수 필드를 1.0으로 얻고 있습니다. 올바른 "점수"필드를 얻을 수있게 도와 주시겠습니까? 다음은 내 코드 단편과 출력입니다. String u

    0

    1답변

    두 코퍼스 (코퍼스 1 & 코퍼스 2), 코퍼스 1의 문서에는 코퍼스 2의 표절 된 문장이 들어 있습니다. Tf-Idf 방식을 사용하여 코퍼스 1의 문서 코퍼스 2의 용어에 대한 역 인덱스가 구축 된 2 코퍼스의 문서에 대해,로는 다음과 같습니다 곧, 각 두 문장 '비교를 위해, 나는 두 개의 TF - IDF 벡터를 구축 전 코사인 유사성을 사용하여 유사성

    0

    2답변

    나는 여러 언어로 작성된 거대한 문서 수집 작업을하고 있습니다. 나는 tf-idf 점수에서 문서 사이의 코사인 거리를 계산하려고합니다. 지금까지 내가 가진 : from sklearn.feature_extraction.text import TfidfVectorizer # The documents are located in the same folder as

    1

    1답변

    나는 100 개의 문서를 가지고있다. (각 문서는 그 문서에서 간단한 단어 목록이다.) 이제는 TF-IDF 행렬을 만들어 순위에 따라 작은 단어 검색을 만들 수있게하려고합니다. tfidfVectorizer를 사용했지만 구문에서 길을 잃었습니다. 어떤 도움이라도 대단히 감사 할 것입니다. 문안 인사. 편집 : 나는 문자열로 목록을 변환 상위 목록에 그들을 추

    0

    1답변

    일부 문서를 변환하여 TF-IDF 벡터 라이저를 작성했습니다. 이제 검색 쿼리를 처리하고 TF-IDF 값의 내림차순으로 페이지 목록을 반환하고 싶습니다. 'vocabulary_'에서 검색어의 위치를 ​​알 수 있습니다. 그러나 그것이 희소 행렬이기 때문에 나는 그 색인에서 tf-idf 값을 읽을 수 없다. 어떤 도움이라도 대단히 감사 할 것입니다. 감사합니

    1

    1답변

    저는 ~ 100,000 개의 연구 논문을 모으고 있습니다. 나는 세 개의 필드를 고려 중이 야 : 일반 텍스트 나는 일반 텍스트 필드의 TFIDF 표현을 얻고 공급하기 위해 TfIdfVectorizer을 사용 추상적 인 제목을함으로써 다시 Vocab의 발생원 세 가지 표현 모두가 동일한 보캐에서 작동하고 있음을 보증하는 제목 및 추상화 벡터 라이저. 제 생

    3

    1답변

    나는 수천 줄의 텍스트 데이터 세트를 가지고있다. 목표는 tfidf 점수를 계산 한 다음 문서 사이의 유사성을 코사인하는 것이다. 이것은 gensim을 사용하여 만든 것이다. 파이썬 튜토리얼을 따라 : dictionary = corpora.Dictionary(dat) corpus = [dictionary.doc2bow(text) for text in da