열 이름에있는 토큰을 기반으로 문서 (실제로는 데이터베이스의 열 이름)를 클러스터해야합니다. 예를 들면 다음과 같습니다. -문서의 토큰이 word 인 경우 문서를 클러스터링합니까?
C1 = ["Date", "Birth"]
C2 = ["Order", "Date"]
C3 = ["Birth", "Day"]
C4 = ["CUSTOMER", "FIRST", "NAME"]
C5 = ["FIRST","NAME"]
.
.
그러나 이러한 모든 토큰은 실제로 인코딩되므로 실제로 데이터 세트를 따르는 것입니다. > 클러스터 1
C4, C5 - -> 클러스터 2
나는에 깊이 현재 외부
C1 = ["44749712dbec183e983dcd78a7736c41", "e8329d2530ca7d80bb28176883186dfd"]
C2 = ["a240fa27925a635b08dc28c9e4f9216d", "44749712dbec183e983dcd78a7736c41"]
C3 = ["e8329d2530ca7d80bb28176883186dfd", "03727ac48595a24daed975559c944a44"]
C4 = ["979ee13f032c02b4652a4e3c3928d90b", "2c2624a5059934a947d6e25fe8332ade", "ad32e604e17467fc435538334fbddf3e"]
C5 = ["2c2624a5059934a947d6e25fe8332ade","ad32e604e17467fc435538334fbddf3e"]
.
.
지금 나는 그가
C1은, C2, C3는 것을 값을 인코딩 소모하여 클러스터 할 그렇게하는 방법. 내 문제를 해결할 수있는 알고리즘을 배우는 기계가 있습니까?
현재 Spark MLlib 1.6.0을 사용하고 있지만 문제를 해결하기 위해 Word2Vec과 같은 알고리즘을 적용 할 방법을 찾을 수 없습니다.
인코딩되지 않은 데이터 세트에서 word2vec 또는 알고리즘을 사용할 수 있습니까?
감사합니다.
나는 모든 키워드를 미리 가지고 있지 않습니다. 그러면 검색 작업과 같이 데이터베이스 (열)를 계속 검색하면서 키워드를 가져옵니다. 그렇다면 벡터 공간 모델을 만드는 방법은 무엇입니까? 참고서를 보내 주셔서 감사합니다 – Rahul
열을 다시 스캔 할 수 있는지 아니면 한번에 검색해야하는지에 따라 다릅니다. Simpler는 전처리 단계로 벡터 공간을 만든 다음 데이터 포인트를 실제로 다시 만들도록 다시 스캔합니다. 한 번에 할 수 있지만 더 복잡합니다. – Ironluca
스캔 할 열의 총 수가 1,000 만 개를 초과합니다. 단일 데이터 세트 전체를 스캔하는 것은 불가능합니다. 나중에 1 천만 개의 열이 나중에 나타날 수 있습니다. – Rahul