feature-engineering

0열

1답변

R은 자동으로 데이터 셋에 구현 된 전처리를 새 데이터 셋에 적용합니다.

다른 스크립트에서 스크립트의 일부를 자동으로로드하는 방법을 찾고 있습니다. 여기 내 문제 : 데이터 세트에서 사전 처리를 수행 한 스크립트를 만든 다음 xgboost를 적용했습니다. 이 스크립트의 실현 된 전처리 (예 : 새 변수 만들기, 평균에 의한 NA 대체 - 초기 데이터 세트의 평균 유지)를 새 데이터 세트에 자동으로 적용해야합니다. 이것은 사용자에

-2열

1답변

머신 러닝의 가치 예측 모델을위한 시간대와 요일을 나타내는 가장 좋은 방법은 무엇입니까?

기계 학습의 기능을 작업하고 매트릭스로 표현할 때 시간 예측과 요일 표시 방법이 가치 예측 모델의 기능으로 추천됩니다. 모든 시간 값에 대해 0을 사용하고 이러한 속성을 피쳐로 표시하는 기본 방법을 나타 내기 위해 1을 사용합니까? 요일에도 같은가요? 감사 이때

0열

1답변

특정 컨텍스트 파일에서 word2vec 빌드를 평가하는 방법

gensim word2vec를 사용하여 Named-Entity-recognition 문제에서 단어를 벡터로 표현하기 위해 여러 소송 파일이있는 CBOW 모델을 만들었지 만 평가 방법을 알고 싶습니다. 내 말의 표현. wordsim353 (NLTK) 또는 Google의 다른 온라인 데이터 세트와 같은 다른 데이터 세트를 사용하는 경우 파일의 내 도메인 데이터

1열

1답변

팬더로 2 차원 비닝

그래서 bin (분류)하고 새로운 기능을 만들기 위해 결합하고자하는 두 세트의 기능이 있습니다. 지도상의 좌표를 그리드로 분류하는 것과 다르지 않습니다. 문제는 기능이 균등하게 분산되어 있지 않으므로 두 기능/좌표 모두에서 비닝 (예 : pandas.qcut()) 할 때 quantile을 사용하고 싶습니다. 두 기능 모두에서 을 수행 한 다음 결과 레이블을

0열

1답변

파이썬 팬더 기능 세대 집계 함수

으로 나는 수렁 이하이 DF 포인트의 수백만의 몇 가지를 포함 ID key dist 0 1 57 1 1 2 22 1 2 3 12 1 3 4 45 1 4 5 94 1 5 6 36 1 6 7 38 1 ..... 같은 인 팬더 DF 있습니다. 지금은 데이터의 시간 특성을 통합하기 위해

1열

1답변

범주 형 상관 관계

데이터에 연속적인 특성과 함께 몇 가지 범주 적 기능이 있습니다. 카테고리 피처를 다른 피조물과 함께 라벨에 상관 관계를 찾기 위해 핫 코드 인코딩하는 것이 좋거나 절대적으로 나쁜 생각입니까?