난 그냥 무작위 숲을 배우기 시작, 그래서이 바보 같은 소리하면 내가 그것을sklearn countvectorizer의 fit_transform과 transform의 차이점은 무엇입니까?
나는 최근 bag of words introduction : kaggle 연습했다, 나는 몇 가지 삭제하려는에 대해 매우 유감스럽게 생각한다 : (vectorizer.fit_transform를 사용
을 우리는 기차 리뷰 단어 배열의 가방을 준비했을 때 우리가 fit_predic를 사용하는 지금)
을 "* 목록에 리뷰 * 청소" t 열차 리뷰의 목록에서 fit_predict는 두 가지 일을한다.> 먼저 데이터에 적합하고 어휘을 알고 각 리뷰에서 벡터를 만든다.
따라서 우리가 vectorizer.transform ("청소 기차 리뷰의 목록")을 사용할 때 이것은 단지 각각의 검토를 위해 벡터에 테스트 리뷰의 목록을 변환.
내 질문에 ..... 왜 사용하지 마십시오 fit_transform도 테스트 목록에! 나는 그것이을 overfitting 리드라는 문서에서 의미하지만하지 기다려야하는 것은 어쨌든 그것을 사용하는 나에게 의미가, 내가 당신에게 줄 수 있도록 내 미래 :
우리는 우리가 본질적으로 말하는 fit_transform 사용하지 않는 경우 기차 리뷰의 가장 빈번한 단어를 사용하여 테스트 리뷰의 특징 벡터를 만드십시오 !! 왜 테스트 필자는 테스트 필자가 가장 자주 사용하는 단어를 사용하여 배열을 배열하지 않습니까?
나는 임의의 치료를 의미합니까? 임의의 숲 열차 기능 배열 및 열차 기능 정서 작동 및 자체 훈련 후 시험기능 배열 감정에 대한 예측을 제공하지 않습니다.
참고 : 나는