데이터베이스에 레코드 (행)가 있고 비슷한 레코드를 식별하고 싶습니다. 코사인 유사성을 사용하는 데 제약이 있습니다. 변수 (속성, 열) 형태로 다양하며,이 형태로 제공하는 경우 :다중 유형 데이터에서 코사인 유사성을 계산하는 방법은 무엇입니까?
[number] [number] [boolean] [20 words string]
가 어떻게 코사인 유사성을 적용 할 벡터화를 진행 할 수 있습니까? 문자열의 경우 간단한 tf-idf를 사용할 수 있습니다. 그러나 숫자와 부울 값에 대해서는? 어떻게 결합 될 수 있습니까? 제 생각에 벡터는 1 + 1 + 1 + 20 길이가 될 것입니다. 하지만 그것은 내 벡터의 계수로 레코드 수를 변환하고 문자열의 tf-idf와 연결하여 코사인 유사성을 계산하는 의미 상으로 "효율적"입니까? 아니면 숫자를 단어로 처리하고 tf-idf를 숫자에도 적용 할 수 있습니다. 다른 기술이 있습니까?