2017-10-26 14 views
-1

기계 학습을위한 이메일 데이터 세트를보고 이메일 내용에 이메일 헤더 정보가 포함되어 있음을 확인했습니다. 이메일 헤더를 무시하거나 건너 뛰고 이메일 내용에 중점을 두는 것이 가장 좋습니다. 또는 헤더를 포함해야합니까? 이것은 당신이하려는 일에 달려 있습니까?기계 학습을 위해 이메일 데이터 세트를 사용할 때 이메일 헤더를 무시해야합니까?

교육용 Word2Vec의 경우 머리글을 사용해야합니까?

이메일을 스팸 또는 비 스팸으로 분류하려면 헤더를 사용해야합니까?

답변

1

이메일의 헤더 부분에는 메일이 스팸인지 아닌지를 결정하는 데 도움이되는 정보가 있습니다. from, reply-tosubject은 스팸 필터링에 사용할 수있는 중요한 필드 중 일부입니다.

그렇다면 항상 ML 알고리즘을 향상시키기 위해 다양한 유형의 데이터 입력을 실험 해 볼 수 있습니다.