내 CMS에 대한 또 다른 스팸 탐지 기능을 만들고 싶습니다. 현재 나는 세 가지 옵션 보는가 : MySQL의에더 큰 데이터 세트를위한 경량 베이 스 필터
- 사용하는 간단한 PHP 클래스 및 저장 토큰을
그렇게하지 PHP를 커넥터에게 코끼리 조련사 같은 큰
리눅스 서버에서 실행할 수 있고 PHP에서 액세스 할 수있는 작고 효율적인 것이 있습니까?
내 CMS에 대한 또 다른 스팸 탐지 기능을 만들고 싶습니다. 현재 나는 세 가지 옵션 보는가 : MySQL의에더 큰 데이터 세트를위한 경량 베이 스 필터
그렇게하지 PHP를 커넥터에게 코끼리 조련사 같은 큰
리눅스 서버에서 실행할 수 있고 PHP에서 액세스 할 수있는 작고 효율적인 것이 있습니까?
가장 간단한 방법은 MySQL의 토큰이지만이 방법이 얼마나 효과적인지 모릅니다.
텍스트를 스팬/스팸이 아닌 카테고리로 분류하려면 마후 트가 좋은 선택이라고 생각합니다. BigData 용으로 제작되었으므로 map/reduce를 사용하려면 Hadoop 설정이 필요합니다. 가벼운 대체 방법이 필요합니다. LogisticRegression Mahout의 알고리즘. 그래서 당신은 설정 하둡에없는 -
는 하드 디스크 또는 다른 곳에서 바이너리 형식의 교육 모델을 저장할 수있는 와 ModelSerializer 클래스가있다.
당신이 시도 할 수 :
이<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-examples</artifactId>
<version>0.6</version>
</dependency>
당신이 당신의 문제에 대한 코드 예제로 사용할 수있는 다음과 같은 클래스가 :
org.apache.mahout.classifier.sgd.TrainNewsGroups
Here는 웹에서 두싯에 대한 좀 더 많은 자원입니다.
PHP에서이 코드에 액세스하려면 Java에서 간단한 RESTful 웹 서비스 또는 간단히 명령 줄 인터페이스를 구축 할 수 있습니다.
희망이 조금 도움이됩니다.