one-hot-encoding

    3

    1답변

    어떻게 tenorflow를 사용하여 vocab 크기가 희박한 벡터로 표현되는 각 단어와 해당 단어의 색인을 1로 나타내는 단어의 핫 인코딩을 만들 수 있습니까? 것을 등 oneHotEncoding (즉 = 'A', 'B', 'C', 'D']) -> [1,0,0,0], [0,1, 0,0], [0,0,1,0], [0,0,0,1]]?

    0

    1답변

    gbm 대신 XGBoost을 사용하려고합니다. 내가 얻는 점수는 다소 이상합니다. 그래서 나는 내 코드에서 뭔가 잘못하고 있다고 생각합니다. 내 데이터에는 몇 가지 요인 변수가 포함되며 다른 모든 숫자가 포함됩니다. 응답 변수는 주택 가격을 나타내는 연속 변수입니다. 나는 XGBoost을 사용하기 위해 핫 언코딩을 사용해야한다고 알고 있습니다. 나는 다음과

    2

    1답변

    위치 기능이 있다고 가정 해 보겠습니다. 기차 데이터 세트에서 고유 한 값은 'NewYork', 'Chicago'입니다. 그러나 테스트 세트에는 'NewYork', 'Chicago', 'London'이 있습니다. 그래서 '런던'을 무시하는 방법을 하나의 핫 인코딩으로 만드는 중입니까? 즉, 테스트 세트에만 나타나는 범주를 인코딩하지 않으려면 어떻게해야합니까

    1

    2답변

    Spark에서 onehotencoder를 사용하면 스파 스 벡터 인 네 번째 열과 같은 결과를 얻게됩니다. // +---+--------+-------------+-------------+ // | id|category|categoryIndex| categoryVec| // +---+--------+-------------+-------------+

    3

    1답변

    문자열 레이블을 원 핫 인코딩으로 인코딩하려고하면 메모리 문제가 계속 발생합니다. 약 5 백만 행과 약 10000 개의 다른 레이블이 있습니다. 나는 다음과 같은 있지만 계속 점점 메모리 오류를 시도 : import numpy as np def one_hot_encoding(y): unique_values = set(y) label_l

    1

    4답변

    나는이 유사 같은 목록을 가지고있다. 의견 및 저널은 두 가지 개별 범주입니다. 실제 목록은 훨씬 크고 가능한 범주가 더 많습니다. 기계 학습에 사용할 수 있도록 목록을 변환하는 데 일회용 인코딩을 사용하고 싶습니다. 예를 들어, 그리스트에서 I는 등의 데이터를 포함하는 스파 스 행렬을 생성하고자 :이 가장 효율적인 것이 가정으로 list = [[1, 1,

    0

    1답변

    나는 다음과 같이 내 데이터 집합의 범주 적 기능을 저장하는 데 사용하는 1 차원 배열을 가지고 있습니다. (각 데이터 인스턴스는 많은 범주에 속하며 범주는 쉼표) Administration Oral ,Aged ,Area Under Curve ,Cholinergic Antagonists/adverse effects/*pharmacokinetics/thera

    0

    1답변

    연구 논문은 올가미 모델을 사용하여 분류 및 기능 선택을 수행 할 것입니다. 필자는 단호한 인코딩을 사용하여 범주 데이터를 처리하고 최종 모델에 대해 최종적으로 어떤 기능이 선택되었는지 결정하기 위해 원래의 범주 값에 매핑되는 기능을 파악해야합니다. 나는 잠시 동안이 질문에 인터넷 검색을 해왔지만 대답을 찾지 못했습니다. scikit의 원 핫 인코딩은 값을

    3

    2답변

    찾고 있었지만 TensorFlow에서 단 하나의 값에서 하나의 정수로 디코드하거나 다시 변환하는 방법의 예는 찾을 수 없습니다. 나는 tf.one_hot을 사용하여 모델을 교육 할 수 있었지만 분류 후에는 레이블을 이해하는 방법에 대해 혼란스러워했습니다. 내 데이터는 내가 만든 TFRecords 파일을 통해 공급됩니다. 나는 파일에 텍스트 레이블을 저장하는

    0

    2답변

    데이터 프레임에 "0"과 "1"플래그가있는 열이 많이 있습니다. 그들은 데이터 프레임을 가져올 때 클래스 "정수"에 속합니다. 0은 부재를 나타내고 1은 모든 열에 존재 함을 나타냅니다. 내가 fators로 변환해야합니까? 나중에 예측 모델을 구축 할 xgboost 사용하려면 [현재 그들은 거의 정수 불구하고 0 & 1 유사하지만 요소는 레벨 1 & 2를