2012-01-13 3 views
1

나는 약간 특이한 모독 관련 질문이 있습니다.프로모션 코드에 대한 성교 확인

이제 사용자 제작 콘텐츠의 욕설 필터링에 익숙합니다. 모든 방법이 완벽하지 않지만 CleanSpeakWebPurify과 같은 제품은 효과가 있습니다.

현재 문제는 우리가 국제적으로 사용되는 프로모션 코드 기반 대회를 운영하는 엔진을 구축하고 있다는 것입니다. 우리는또는 PEN15 또는 무엇인가와 같은 코드를 보내지 않도록하기 위해이 코드들 중 어느 것도 라틴 아메리카 스페인어 나 말레이어에서 모독이 아님을 확인하는 것으로 할 수 있습니다 (적어도 첫 번째 인스턴스에서는).

구글 검색을 시도해 보았지만 알 수있는 사람들에게 물어 보았습니다. 그러나 es-419 또는 모독 목록을 보유하고있어 코드를 필터링하는 쉬운 방법을 찾을 수 없습니다. 문자 그대로 로케일 당 수백만 개의 코드가 있기 때문에 각 코드에 API를 사용하는 것보다는 오프라인 확인을 수행하는 것이 좋습니다 (대역폭과 사용료면에서 모두 비쌉니다).

나는 이것이 좀 길다는 것을 알고 있지만, 다른 언어로 된 욕설 목록에 대한 좋은 정보를 아는 사람이 있습니까?

#disclaim : 우리는 욕설 필터링이 완벽하지 않으며 사용자 제작 콘텐츠로는 본질적으로 무익하다는 것을 알고 있으며 SO #273516: How do you implement a good profanity filter?을 읽었습니다. 그건 우리가 요구하는 것이 아닙니다.

+3

당신에게 도움이되지는 않지만 다음을 상기시켜줍니다. http://thedailywtf.com/Articles/The-Automated-Curse-Generator.aspx –

+0

나는 그 이야기를 전에 보지 못했습니다. 그것은 정말로 굉장합니다. 내 점심 시간을 밝게 해줘서 고마워.) –

+0

벤이 준 링크의 중요한 문장은 "나는 그것에 대해 생각 해왔다. 나쁜 단어 필터를 사용하는 것은 너무 위험하다. 모든 가능한 공격적인 조합을 생각해 낼 수 있습니다. " 그게 전부 야. 욕설을 걸러 낼 수있는 방법이 없습니다. 누군가가 특수한 방식으로 적어 두었을 때 특히 그렇습니다. BTW, 나는 동일한 기사를 공유하고 싶었다, 그러나 벤은 더 빨랐다. –

답변

1

다른 언어로 목록을 작성하거나 찾는 작업은 시간이 많이 걸리고 어렵습니다. (Inversoft에서 많은 것을 작성했습니다.) 대신 코드 생성기를 조정하는 것이 더 낫습니다 (코드가 사람이 아닌 프로모션 코드를 생성한다고 말할 수있는 것에서부터).

발전기를 조정하는 가장 좋은 방법은 코드가 대부분의 유럽어에서 자음과 모음의 일반적인 사용을 기반으로하는 단어를 쉽게 형성 할 수 없도록하는 것입니다. 폴란드와 다른 국가에서는 약간 어려움이 있지만 일반적으로 효과가 있습니다.

일반적으로 모음으로 시작하는 대부분의 코드 다음에 다른 모음 또는 결합하지 않는 자음 (예 : 'u'없이 'q')이옵니다. 코드가 자음으로 시작하면 다음 문자는 동일한 자음 또는 사용 확률이 낮은 문자입니다. 예를 들어 's'로 시작하면 'g'를 추가하는 것이 좋습니다.

위키 백과 또는 기타 유사한 소스 (예 : Linux 사전 파일)를 사용하여 통계적 방법을 구축 할 수도 있습니다. 서로의 옆에있는 문자의 확률을 추출하여 어떤 언어로도 절대로 단어의 정확성을 보장 할 수있는 코드를 생성 할 수 있어야합니다.

그러나 질문을 잘못 읽고 프로그래밍 방식으로 코드를 생성하지 않으면 내 응답을 완전히 무시할 수 있습니다. :)

1

나는 같은 생각을 가지고있다. 내가하고있는 프로젝트에 대해 6 자 코드를 생성하려고합니다. 명백한 포르 핀 코드의 확률을 줄이기로 결정 했으므로 생각대로 생각할 수있는 많은 "나쁜"단어에서 찾은 모음을 제거했습니다. 기본 코드는 36 개입니다. a, e, i, o, u, 1,0을 포함하지 않은 기본 시스템과 비슷한 것을 나에게 남겨주세요. 하나, 제로는 I, L, O의 으로 일부 글꼴의 문자 사이에 혼란을 줄이기 위해 제거되었습니다. 지금까지 "profain"코드가 작성되지 않았습니다. 기초 28에는 1.10 억의 유일한 조합이있다. 다른 언어를 보증 할 수 없으며 고려하지도 않았습니다 ...

+0

그래, 나는 그것이 거의 우리가 끝내었던 것을 대략 확신한다. 다음 주에 작업하고 있던 개발자를 따라 잡으므로 자세한 내용을 게시 할 수있게 될 것입니다. 스택 오버플로, 그랜트 환영 : o) –