我有一个域名列表,并想确定是域名的名称看起来像色情网站或不是。有什么更好的方法可以做到这一点?色情域名列表看起来像http://dumpz.org/56957/。这些域名可以用来教系统色情域名应该是什么样子的。我还有其他列表- http://dumpz.org/56960/ -这个列表的许多域名也是色情,我想确定他们的名字。
发布于 2011-05-30 03:39:39
使用贝叶斯过滤器,例如:SpamBayes或Divmods Reverend。你可以用你拥有的列表来训练它,如果它是色情的,你可以给它在给定域名上的可能性打分。
要获得简短的概述,请参阅this文章。
发布于 2011-05-30 02:41:06
你不能依赖域名,有太多的色情域名有像样的名字,但有安全内容的色情域名很少。
发布于 2011-05-30 07:45:46
这可能取决于你的目标是什么。我猜你最感兴趣的是最小化假阴性(如果一个域名不是好域名,你可能会无意中称它为好域名)。例如,如果你希望论坛中的所有色情链接在发布之前都被审查是否有垃圾邮件,这可能是真的。如果一些非色情链接被标记为审查,这是可以的。
在这种情况下,您可能会做一些相当简单的事情。如果你能想出一个色情单词的列表,你可以将所有包含这些单词的域名都标记为一个子字符串。这将捕获一些安全域: expertsexchange.com可以匹配“性”或“交换”,但“雅虎”永远不会标记为正。易于实现,易于理解,易于调整。
可以使用你最喜欢的搜索引擎找到猥亵词语的列表。您可以使用您的域名列表来提取跨域的常见长子字符串作为单词。
如果你真的想要得到正确的答案,你需要看看这些域上有什么。Site-About-Kitty-Porn.com可能是一个棒棒糖域名或非法色情网站。除非你做一些爬行才能知道。如果您获取实际内容并与列表进行匹配,那么您会做得更好一些。
你也可以在一些第三方服务上尝试每个域名,比如儿童安全的互联网过滤器,或者甚至尝试测试域名是否会出现在你最喜欢的搜索引擎中的安全搜索结果中。当然,请确保您遵循每个服务的TOS以及所有这些。
https://stackoverflow.com/questions/6169621
复制相似问题