신경망에서 훈련 세트를 어떻게 모델링해야합니까?

나는 바보 같은 혼란을 겪고 있지만, 그것은 나를 많이 괴롭 히고있다. 스팸 탐지를 위해 ANN을 만들어야합니다. 지금까지 메일의 tfidf 벡터를 개발하고 해당 행렬의 PCA를 개별적으로 계산하기위한 모듈을 개발했습니다. 문제는 내 메일이받은 편지함에서 직접 읽히는 것입니다. 교육용으로 스팸 박스를 사용하고 읽지 않은 메일 벡터를 개발하는 데 사용 된 동일한 클래스를 사용하고 싶습니다. 스팸으로 분류하려면 어떻게해야합니까?신경망에서 훈련 세트를 어떻게 모델링해야합니까?

내가는 mailVector는 차원 PCA를 통해 감소이

HashMap<HashMap<String,Double>,Integer> trainingSet;

첫 번째 인수 같은 것을 개발해야하고, 정수 아닙니까 레이블 (1) 스팸 및 0 다음 파일과 그들로부터 읽을 벡터 쓰기 ? 아니면 오히려 내 코드를 유연하게 만들어서 지금부터받은 편지함에서 직접 읽지 말고, 이미 존재하는 햄과 스팸 메일 세트를 온라인으로 읽은 다음 메일 개체로 모델링해야합니다. [나는 MailMessage 클래스를 가지고 있습니다. 제목, 본문, mailvector 등을 메일로 사용한 다음 용어 색인을 작성한 다음 마침내 벡터를 사용하여 양식 벡터를 만든 다음 교육 세트를 만든 후 교육을 마친 후에받은 편지함을 읽을 수있게합니까?

통찰력을 얻으실 수 있습니다!

출처

2012-11-10 Hooli

나는 당신에게 솔직해질 것입니다. 솔직히 말해서 영어에는 그다지 많은 단어가 없습니다. 매우 큰 입력 벡터 (수만 개라고 가정)를 사용하면 가장 효과적인 성능을 얻을 수 있습니다. 실제로 숨겨진 레이어가 없어도 구매할 수 있습니다.

입력 벡터가 수천 점인 이미지 인식 등에는 흔한 일이 아닙니다.

출처

2013-02-11 18:14:44

감사합니다. 죄송합니다, 저는 당신의 대답을 보았습니다! :) – Hooli

당신이 성공했음을 기쁘게 생각합니다. –

신경망에서 훈련 세트를 어떻게 모델링해야합니까?

답변

관련 문제