tf-idf

0열

1답변

자발적인 클러스터링 중에 sklearn의 TfidfVectorizer에서 매개 변수를 선택하는 방법

TfidfVectorizer는 & 텍스트를 벡터로 쉽게 인코딩 할 수있는 방법을 제공합니다. 제 질문은 min_df, max_features, smooth_idf, sublinear_tf와 같은 매개 변수에 적절한 값을 선택하는 방법입니다. 업데이트 : 질문에 어쩌면 내가 했어야 자세한 내용 : 내가 텍스트의 무리와 함께 자율 클러스터링을하고있는 중이 야합

0열

2답변

Sklearn과 gensim의 TF-IDF 구현

필자는 문서 집합 간의 유사성을 판단하려고 노력했으며, 사용하고있는 방법 중 하나는 TF-IDF 결과와의 코사인 유사도입니다. 비슷한 결과를주는 sklearn과 gensim의 구현을 모두 사용해 보았지만 내 구현은 다른 매트릭스로 나타납니다. 을 분석 한 후, 나는 그들의 구현 내가 공부 한 사람에서 다른 것으로 나타났습니다 가로 질러 온 :이 Sklear

1열

1답변

R : weightTf와 weightTfIdf가 동일한 빈번 단어 목록을 생성합니까?

오늘 제가 인정한 바, tf 및/또는 tfidf이 R에서 부러진 것으로 보입니다. 아래 예를 참조하십시오. 설명서의 데이터, 즉 crude을 사용합니다. 나는 빈번한 용어 목록이 동등하지 않다는 것을 기대합니다. 그러나 그들은 평등합니다. 이것은 결코 일어나지 않아야합니다. data("crude") dtm <- DocumentTermMatrix(crud

0열

1답변

문서 목록의 가장 대표적인 문서

안녕하세요 저는 문서 목록에서 가장 대표적인 문서가 무엇인지 알아 내려고하고 있습니다. 그 일을 할 수있는 것에 관한 자료 나 문서가 있는지 궁금합니다. 무엇이든간에 문서가 가지고있는 문서의 점수를 얻을 제거 중지 단어, bigrams에게 행렬 곱셈 및 DF 곱한 TF의 합계를 사용하여 : 내가 함께 나이 작업을 수행하는 데 도움이 몇 가지 간단한 통계를

2열

2답변

tf-idf (삼각형 부등식)에 대한 코사인 유사성 대안

유사한 문서를 클러스터링하기 위해 tf-idf를 사용하려고합니다. 내 시스템의 가장 큰 단점 중 하나는 코사인 유사성을 사용하여 어느 벡터를 그룹화해야하는지 결정하는 것입니다. 문제는 코사인 유사성이 삼각형 부등식을 만족시키지 않는다는 것입니다. 필자의 경우 여러 클러스터에서 동일한 벡터를 사용할 수 없기 때문에 모든 클러스터를 공통 요소로 병합해야합니다.

0열

2답변

SOLR IDF 최대 문서 구성

내 응용 프로그램에서 검색에 사용 된 문서를 저장하는 데 SOLR을 사용하고 있습니다. SOLR은 여러 응용 프로그램에서 공유하며 데이터는 각 응용 프로그램마다 고유 한 응용 프로그램 ID를 기준으로 그룹화됩니다. TF-IDF를 기준으로 점수를 계산할 때 SOLR은 사용할 수있는 전체 문서를 사용합니다. 응용 프로그램의 모든 문서를 세는 대신 응용 프로그램

0열

1답변

이미 알려진 쌍의 코사인 유사도

csv 파일에 저장된 중복 문서 쌍 목록이 있습니다. 1 열에서 각 ID는 파일이 이런 식 2 열 에서 해당 ID에 중복 : Document_ID1 Document_ID2 12345 87565 34546 45633 56453 78645 35667 67856 13636 67845 각 문서 ID가 다른 곳에 저장되고 텍스트와 연결

0열

1답변

문자열 유사성 TF-IDF 단어 또는 Word2vec의 가방

2 문자열 간의 유사성을 계산하는 응용 프로그램을 만들려고합니다. 문자열이 길지 않습니다. 3 최대 한 문장. 몇 가지 연구를 수행했으며 몇 가지 가능한 솔루션 경로를 발견했습니다. 단어 먼저 하나 개 사용 가방 : 단어 카운트와 2 개 벡터를 생성 (코사인 유사도) 번째 사용 TF-IDF 비교하고 생성 벡터를 비교한다. 세 번째는 word2vec를 사용하

1열

1답변

TF-IDF에서 SVD를 적용하는 방법 pyspark의 데이터 프레임

pyspark tf-idf 함수를 적용하고 다음 결과를 얻었습니다. | features | |----------| | (35,[7,9,11,12,19,26,33],[1.2039728043259361,1.2039728043259361,1.2039728043259361,1.6094379124341003,1.6094379124341003,1.609437912

0열

1답변

python TfidfVectorizer는 typeError : csv 파일의 예상 문자열 또는 바이트와 같은 객체를 제공합니다.

매우 큰 csv 파일을 분석 중이며 scikit을 사용하여 tf-idf 정보를 추출하려고합니다. 불행히도,이 typeError를 던지기 때문에 결코 데이터 처리가 끝나지 않습니다. 이 오류를 제거하기 위해 프로그래밍 방식으로 CSV 파일을 변경하는 방법이 있습니까? 여기 내 코드는 다음과 같습니다. df = pd.read_csv("C:/Users/aidan