2012-01-25 3 views
0

내 CMS에 대한 또 다른 스팸 탐지 기능을 만들고 싶습니다. 현재 나는 세 가지 옵션 보는가 : MySQL의에더 큰 데이터 세트를위한 경량 베이 스 필터

  1. 사용하는 간단한 PHP 클래스 및 저장 토큰을

그렇게하지 PHP를 커넥터에게 코끼리 조련사 같은 큰

  • 뭔가를 스팸 어쌔신를 설치하고 사용 MySQL 접근 방식과 마찬가지로, 시간이지나면서 커질 것이고 전체 시스템의 성능을 떨어 뜨릴 까봐 두려워하기 때문입니다. 스팸 어쌔신 접근법이 더 매력적으로 보이지만 인터넷상의 모든 곳에서는 SA의 규칙이 메일과 헤더에 중점을두고 있으며 이것이 이상적인 방법은 아니라고 쓰고 있습니다. 마지막으로 중요한 것은 조롱 거리를 알고 있지만 너무 크고 관리 오버 헤드가 많이 발생할 수 있습니다.

    리눅스 서버에서 실행할 수 있고 PHP에서 액세스 할 수있는 작고 효율적인 것이 있습니까?

  • 답변

    1

    가장 간단한 방법은 MySQL의 토큰이지만이 방법이 얼마나 효과적인지 모릅니다.

    텍스트를 스팬/스팸이 아닌 카테고리로 분류하려면 마후 트가 좋은 선택이라고 생각합니다. BigData 용으로 제작되었으므로 map/reduce를 사용하려면 Hadoop 설정이 필요합니다. 가벼운 대체 방법이 필요합니다. LogisticRegression Mahout의 알고리즘. 그래서 당신은 설정 하둡에없는 -

    는 하드 디스크 또는 다른 곳에서 바이너리 형식의 교육 모델을 저장할 수있는 ModelSerializer 클래스가있다.

    당신이 시도 할 수 :

    <dependency> 
        <groupId>org.apache.mahout</groupId> 
        <artifactId>mahout-examples</artifactId> 
        <version>0.6</version> 
    </dependency> 
    

    당신이 당신의 문제에 대한 코드 예제로 사용할 수있는 다음과 같은 클래스가 :

    org.apache.mahout.classifier.sgd.TrainNewsGroups 
    

    Here는 웹에서 두싯에 대한 좀 더 많은 자원입니다.

    PHP에서이 코드에 액세스하려면 Java에서 간단한 RESTful 웹 서비스 또는 간단히 명령 줄 인터페이스를 구축 할 수 있습니다.

    희망이 조금 도움이됩니다.