2012-11-10 3 views
2

나는 바보 같은 혼란을 겪고 있지만, 그것은 나를 많이 괴롭 히고있다. 스팸 탐지를 위해 ANN을 만들어야합니다. 지금까지 메일의 tfidf 벡터를 개발하고 해당 행렬의 PCA를 개별적으로 계산하기위한 모듈을 개발했습니다. 문제는 내 메일이받은 편지함에서 직접 읽히는 것입니다. 교육용으로 스팸 박스를 사용하고 읽지 않은 메일 벡터를 개발하는 데 사용 된 동일한 클래스를 사용하고 싶습니다. 스팸으로 분류하려면 어떻게해야합니까?신경망에서 훈련 세트를 어떻게 모델링해야합니까?

내가는 mailVector는 차원 PCA를 통해 감소이

HashMap<HashMap<String,Double>,Integer> trainingSet; 

첫 번째 인수 같은 것을 개발해야하고, 정수 아닙니까 레이블 (1) 스팸 및 0 다음 파일과 그들로부터 읽을 벡터 쓰기 ? 아니면 오히려 내 코드를 유연하게 만들어서 지금부터받은 편지함에서 직접 읽지 말고, 이미 존재하는 햄과 스팸 메일 세트를 온라인으로 읽은 다음 메일 개체로 모델링해야합니다. [나는 MailMessage 클래스를 가지고 있습니다. 제목, 본문, mailvector 등을 메일로 사용한 다음 용어 색인을 작성한 다음 마침내 벡터를 사용하여 양식 벡터를 만든 다음 교육 세트를 만든 후 교육을 마친 후에받은 편지함을 읽을 수있게합니까?

통찰력을 얻으실 수 있습니다!

답변

0

나는 당신에게 솔직해질 것입니다. 솔직히 말해서 영어에는 그다지 많은 단어가 없습니다. 매우 큰 입력 벡터 (수만 개라고 가정)를 사용하면 가장 효과적인 성능을 얻을 수 있습니다. 실제로 숨겨진 레이어가 없어도 구매할 수 있습니다.

입력 벡터가 수천 점인 이미지 인식 등에는 흔한 일이 아닙니다.

+0

감사합니다. 죄송합니다, 저는 당신의 대답을 보았습니다! :) – Hooli

+0

당신이 성공했음을 기쁘게 생각합니다. –