tf-idf

1열

2답변

파이썬 : 팬더의 두 열 사이의 tf-idf 코사인 유사성을 계산할 때 MemoryError

팬더 데이터 프레임의 두 열 사이의 tf-idf 벡터 코사인 유사성을 계산하려고합니다. 한 열에는 검색어가 포함되고 다른 열에는 제품 제목이 포함됩니다. 코사인 유사성 값은 검색 엔진/순위 기계 학습 알고리즘의 "특징"으로 의도됩니다. 저는 iPython 노트북에서이 작업을 수행하고 있으며 불행히도 MemoryErrors를 실행 중입니다. 몇 시간의 파기

0열

1답변

단어의 특정 TF-IDF 값을 아는 방법은 무엇입니까?

TfidfVectorizer 기능을 사용하여 특정 단어의 가치를 어떻게 알 수 있습니까? 예를 들어, 내 코드는 다음과 같습니다 이제 docs = [] docs.append("this is sentence number one") docs.append("this is sentence number two") vectorizer = TfidfVectoriz

3열

1답변

Elasticsearch : 주어진 문서의 모든 용어의 tf-idf 가져 오기

다음 탄성 ID를 가진 내 elasticsearch에 문서가 있습니다. AVosj8FEIaetdb3CXpP- 필드의 모든 단어에 대해 액세스하려고하는데 tf-idf입니다. 다음과 같이했습니다. :는 GET /cnn/cnn_article/AVosj8FEIaetdb3CXpP-/_termvectors { "fields" : ["author_wordin

0열

1답변

TFIDF 벡터를 다항식 순진 베이로 어떻게 사용할 수 있습니까?

TFIDF 변환을 사용하여 문서를 연속 값 기능으로 인코딩했다고 가정 해보십시오. Naive Bayes 분류 자의 입력으로 어떻게 사용할 수 있습니까? 우리의 기능이 더 이상 이진이 아니기 때문에 Bernoulli naive-bayes가 빠져 있습니다. 값이 범주 적이기보다는 연속적이기 때문에 우리는 다항식 순진 베이를 사용할 수없는 것 같습니다. 대신에

0열

1답변

파이썬 용어 빈도 벡터화 기

파이썬의 패키지 인 scikit-learn의 TfidfVectorizer을 사용하면 <term>-frequency-inverse-document-frequency이라는 문자로 구성된 문서 집합을 문서로 쉽게 변환 할 수 있습니다. 여기에서 term은 문서에 나타나는 단어입니다. 파이썬의 어느 곳에서나 Tfidector는 TfidfVectorizer의 특징

1열

1답변

TfidfVectorizer

에서 텍스트 문서 세트를 플로팅하고 몇 가지 특이점을 발견했습니다.이 특이한 점을 알아낼 수 있기를 바랍니다. 원시 텍스트를 사용하고 SKLearn에 내장 된 TfidfVectorizer를 사용하고 있습니다. 2D로 축소하려면 TruncatedSVD를 사용하고 있습니다. reduced_data = TruncatedSVD(n_components=2).fit_

1열

1답변

tfidf 행렬이 이상적으로

일 때 문서 세트에 대해 tfidf를 실행했을 때 tfidf 행렬을 반환했습니다. (1, 12) 0.656240233446 (1, 11) 0.754552023393 (2, 6) 1.0 (3, 13) 1.0 (4, 2) 1.0 (7, 9) 1.0 (9, 4) 0.742540927053 (9, 5)

0열

1답변

TF IDF 행렬 조건의 가중치가 증가합니다.

문서에 대한 tf idf 행렬이 있습니다. 나는 TFIDF 매트릭스에서 두배로하고 싶은 가중치를 가지고있다. 내가 매트릭스 weightTerms을 가지고 있고 코드 from sklearn.feature_extraction.text import CountVectorizer count_vectorizer = CountVectorizer(min_df=1,st

3열

1답변

TFIDF 매트릭스의 SCIKIT에서 CountVectoriser의 가중치를 두 배로 늘리십시오.

가지고있는 텍스트 파일에서 tf-idf 행렬을 생성했습니다. 나는 어휘에 중점을두고 싶다. 아래 코드를 작성했습니다. 특정 어휘집 용어의 가중치를 어떻게 배가시킬 수 있습니까? from sklearn.feature_extraction.text import CountVectorizer count_vectorizer = CountVectorizer(min_

1열

1답변

Java를 사용하여 두 텍스트 문서간에 코사인 유사성을 찾는 방법은 무엇입니까?

특정 해시 태그가 포함 된 많은 수의 트윗을 비교하여 가장 높은 콘텐츠가있는 트윗을 표시해야합니다. 똑같은 경우, 나는 그들 각각 사이의 pair-wise 코사인 유사성을 찾고 출력과 가장 높은 페어 와이즈 코사인 유사성을 가진 트윗을 표시해야합니다. 나는 벡터 공간 모델, tf-idf 벡터, word2vec/doc2vec 등을 많이 읽었지만 완전히 아무것