다른 스크립트에서 스크립트의 일부를 자동으로로드하는 방법을 찾고 있습니다. 여기 내 문제 : 데이터 세트에서 사전 처리를 수행 한 스크립트를 만든 다음 xgboost를 적용했습니다. 이 스크립트의 실현 된 전처리 (예 : 새 변수 만들기, 평균에 의한 NA 대체 - 초기 데이터 세트의 평균 유지)를 새 데이터 세트에 자동으로 적용해야합니다. 이것은 사용자에
gensim word2vec를 사용하여 Named-Entity-recognition 문제에서 단어를 벡터로 표현하기 위해 여러 소송 파일이있는 CBOW 모델을 만들었지 만 평가 방법을 알고 싶습니다. 내 말의 표현. wordsim353 (NLTK) 또는 Google의 다른 온라인 데이터 세트와 같은 다른 데이터 세트를 사용하는 경우 파일의 내 도메인 데이터
그래서 bin (분류)하고 새로운 기능을 만들기 위해 결합하고자하는 두 세트의 기능이 있습니다. 지도상의 좌표를 그리드로 분류하는 것과 다르지 않습니다. 문제는 기능이 균등하게 분산되어 있지 않으므로 두 기능/좌표 모두에서 비닝 (예 : pandas.qcut()) 할 때 quantile을 사용하고 싶습니다. 두 기능 모두에서 을 수행 한 다음 결과 레이블을
으로 나는 수렁 이하이 DF 포인트의 수백만의 몇 가지를 포함 ID key dist
0 1 57 1
1 2 22 1
2 3 12 1
3 4 45 1
4 5 94 1
5 6 36 1
6 7 38 1
.....
같은 인 팬더 DF 있습니다. 지금은 데이터의 시간 특성을 통합하기 위해