나는 약간 특이한 모독 관련 질문이 있습니다.프로모션 코드에 대한 성교 확인
이제 사용자 제작 콘텐츠의 욕설 필터링에 익숙합니다. 모든 방법이 완벽하지 않지만 CleanSpeak 및 WebPurify과 같은 제품은 효과가 있습니다.
현재 문제는 우리가 국제적으로 사용되는 프로모션 코드 기반 대회를 운영하는 엔진을 구축하고 있다는 것입니다. 우리는또는 PEN15
또는 무엇인가와 같은 코드를 보내지 않도록하기 위해이 코드들 중 어느 것도 라틴 아메리카 스페인어 나 말레이어에서 모독이 아님을 확인하는 것으로 할 수 있습니다 (적어도 첫 번째 인스턴스에서는).
구글 검색을 시도해 보았지만 알 수있는 사람들에게 물어 보았습니다. 그러나 es-419
또는 모독 목록을 보유하고있어 코드를 필터링하는 쉬운 방법을 찾을 수 없습니다. 문자 그대로 로케일 당 수백만 개의 코드가 있기 때문에 각 코드에 API를 사용하는 것보다는 오프라인 확인을 수행하는 것이 좋습니다 (대역폭과 사용료면에서 모두 비쌉니다).
나는 이것이 좀 길다는 것을 알고 있지만, 다른 언어로 된 욕설 목록에 대한 좋은 정보를 아는 사람이 있습니까?
#disclaim
: 우리는 욕설 필터링이 완벽하지 않으며 사용자 제작 콘텐츠로는 본질적으로 무익하다는 것을 알고 있으며 SO #273516: How do you implement a good profanity filter?을 읽었습니다. 그건 우리가 요구하는 것이 아닙니다.
당신에게 도움이되지는 않지만 다음을 상기시켜줍니다. http://thedailywtf.com/Articles/The-Automated-Curse-Generator.aspx –
나는 그 이야기를 전에 보지 못했습니다. 그것은 정말로 굉장합니다. 내 점심 시간을 밝게 해줘서 고마워.) –
벤이 준 링크의 중요한 문장은 "나는 그것에 대해 생각 해왔다. 나쁜 단어 필터를 사용하는 것은 너무 위험하다. 모든 가능한 공격적인 조합을 생각해 낼 수 있습니다. " 그게 전부 야. 욕설을 걸러 낼 수있는 방법이 없습니다. 누군가가 특수한 방식으로 적어 두었을 때 특히 그렇습니다. BTW, 나는 동일한 기사를 공유하고 싶었다, 그러나 벤은 더 빨랐다. –