我在考虑做一个网站。bt我如何确保提出问题的用户使用任何侮辱性语言或消息完全面向主题时。我不是在说垃圾邮件..我知道验证码之类的..我想问的是,在这种情况下,我如何监视人类的活动,发送的消息,同时为用户提供完全的隐私!
发布于 2010-08-24 01:27:40
在大多数语言中都有可用的curse-word filtering库,通常具有定制被过滤掉的单词的能力。
为了过滤垃圾邮件,像bayesian spam filters这样的东西会尝试根据响应中的关键字来确定邮件是否为垃圾邮件。这真的不是你想要自己去做的事情。
另一件需要关注的事情是Markov Chains。它们被设计为基于任何给定单词后面紧跟任何其他特定单词的概率来生成看似有效的文本字符串。使用反向过程,您可以尝试通过检查所使用的单词是否紧跟在其他“主题”单词之后来确定文本字符串是否有效。这也是非常困难的。
为了保护用户的隐私,您可以使用这三个测试的组合来创建阈值。也就是说,您将检查no消息,除非它们达到很高的咒骂/垃圾邮件/离题分数。在这一点上,将手动检查这些消息,以查看它们是否合适。
目前还不可能有一个100%自动化的过程,不会阻止有效的消息并让无效的消息通过。
发布于 2010-08-24 01:04:07
一个词..。手动。
发布于 2010-08-24 01:08:01
https://stackoverflow.com/questions/3549861
复制相似问题