저는 단어가 word_i
이고 가중치가 weight[i,j]
, 인 거대한 데이터 세트를 가지고 있습니다. 여기서 weight는 단어 간의 "연결 강도"입니다.알고리즘 : 데이터 이진화
이 데이터를 이진화하고 싶습니다만, 단어의 코드 간 해밍 거리가이 가중치와 관련이있는 방식으로 각 단어의 이진 코드를 만드는 기존 알고리즘이 있는지 알고 싶습니다.
추가됨 :
내가 일하고 문제는 그 단어 사이에 연결을 만들기 위해 신경망이나 SVM을 가르치려고 할 것입니다. 이것이 바로 데이터를 이진화하기로 결정한 이유입니다. Markov 모델이나 그래프 만 사용하고 싶지 않은 이유를 묻지 말고 시도해 보았습니다. 신경망과 비교하고 싶습니다.
그래서, 주어진 단어에 내 NN을 원하는
"A" "난 그냥 치화을 시도했습니다
가장 가까운 연결이나 설정 단어와 그 확률을 반환 및 확인 ab "를 입력하고 선호 답변으로서의 가중치를 사용하면이 작업이 잘못되었습니다.
임계 값 (가중치)을 1 비트 더 변경하려고했습니다. 이 임계 값이 작을수록 더 많은 비트가 필요합니다.
상황이 있습니다. a-> b w1; b-> a2; w1 >> w2이므로 방향이 중요합니다.
얼마나 강한 상관 관계가 있습니까? 가능하면 이진 코드가 장황한 코드 일 필요가 있습니까? 왜 이런 짓을하는? –
질문을 명확히하십시오. 바이너리 화 == 직렬화? 해밍 거리를 계산하는 알고리즘이 필요합니까? 문제가 정확히 무엇입니까? –
당신이 말한 것으로부터, 해밍 거리가 무게와 같도록 이진 문자열로 각 단어를 대체하고 싶습니다. 옳은? 이것은 체중이 정수라는 것을 암시합니다. –