tf-idf

    1

    2답변

    팬더 데이터 프레임의 두 열 사이의 tf-idf 벡터 코사인 유사성을 계산하려고합니다. 한 열에는 검색어가 포함되고 다른 열에는 제품 제목이 포함됩니다. 코사인 유사성 값은 검색 엔진/순위 기계 학습 알고리즘의 "특징"으로 의도됩니다. 저는 iPython 노트북에서이 작업을 수행하고 있으며 불행히도 MemoryErrors를 실행 중입니다. 몇 시간의 파기

    0

    1답변

    TfidfVectorizer 기능을 사용하여 특정 단어의 가치를 어떻게 알 수 있습니까? 예를 들어, 내 코드는 다음과 같습니다 이제 docs = [] docs.append("this is sentence number one") docs.append("this is sentence number two") vectorizer = TfidfVectoriz

    3

    1답변

    다음 탄성 ID를 가진 내 elasticsearch에 문서가 있습니다. AVosj8FEIaetdb3CXpP- 필드의 모든 단어에 대해 액세스하려고하는데 tf-idf입니다. 다음과 같이했습니다. :는 GET /cnn/cnn_article/AVosj8FEIaetdb3CXpP-/_termvectors { "fields" : ["author_wordin

    0

    1답변

    TFIDF 변환을 사용하여 문서를 연속 값 기능으로 인코딩했다고 가정 해보십시오. Naive Bayes 분류 자의 입력으로 어떻게 사용할 수 있습니까? 우리의 기능이 더 이상 이진이 아니기 때문에 Bernoulli naive-bayes가 빠져 있습니다. 값이 범주 적이기보다는 연속적이기 때문에 우리는 다항식 순진 베이를 사용할 수없는 것 같습니다. 대신에

    0

    1답변

    파이썬의 패키지 인 scikit-learn의 TfidfVectorizer을 사용하면 <term>-frequency-inverse-document-frequency이라는 문자로 구성된 문서 집합을 문서로 쉽게 변환 할 수 있습니다. 여기에서 term은 문서에 나타나는 단어입니다. 파이썬의 어느 곳에서나 Tfidector는 TfidfVectorizer의 특징

    1

    1답변

    에서 텍스트 문서 세트를 플로팅하고 몇 가지 특이점을 발견했습니다.이 특이한 점을 알아낼 수 있기를 바랍니다. 원시 텍스트를 사용하고 SKLearn에 내장 된 TfidfVectorizer를 사용하고 있습니다. 2D로 축소하려면 TruncatedSVD를 사용하고 있습니다. reduced_data = TruncatedSVD(n_components=2).fit_

    1

    1답변

    일 때 문서 세트에 대해 tfidf를 실행했을 때 tfidf 행렬을 반환했습니다. (1, 12) 0.656240233446 (1, 11) 0.754552023393 (2, 6) 1.0 (3, 13) 1.0 (4, 2) 1.0 (7, 9) 1.0 (9, 4) 0.742540927053 (9, 5)

    0

    1답변

    문서에 대한 tf idf 행렬이 있습니다. 나는 TFIDF 매트릭스에서 두배로하고 싶은 가중치를 가지고있다. 내가 매트릭스 weightTerms을 가지고 있고 코드 from sklearn.feature_extraction.text import CountVectorizer count_vectorizer = CountVectorizer(min_df=1,st

    3

    1답변

    가지고있는 텍스트 파일에서 tf-idf 행렬을 생성했습니다. 나는 어휘에 중점을두고 싶다. 아래 코드를 작성했습니다. 특정 어휘집 용어의 가중치를 어떻게 배가시킬 수 있습니까? from sklearn.feature_extraction.text import CountVectorizer count_vectorizer = CountVectorizer(min_

    1

    1답변

    특정 해시 태그가 포함 된 많은 수의 트윗을 비교하여 가장 높은 콘텐츠가있는 트윗을 표시해야합니다. 똑같은 경우, 나는 그들 각각 사이의 pair-wise 코사인 유사성을 찾고 출력과 가장 높은 페어 와이즈 코사인 유사성을 가진 트윗을 표시해야합니다. 나는 벡터 공간 모델, tf-idf 벡터, word2vec/doc2vec 등을 많이 읽었지만 완전히 아무것