文章/答案/技术大牛

发布

问自学习url过滤器
EN

Stack Overflow用户

提问于 2016-10-09 01:28:49

回答 2查看 330关注 0票数 0

我需要通过python脚本将给定的url分类为色情或非色情(而不是通过亲自访问和观看视频)，我考虑通过对每个url包含的单词进行分类来计算色情概率，例如，如果url包含单词'bang‘和'18’，则其色情网站的概率很高，我尝试实现它，但它不是很准确，有没有python库可以帮助我对这些url进行分类？我正在寻找可以从测试数据中学习的库，比如智能反垃圾邮件过滤器，比如：

    data = {
    'google.com':0,
    'superxxx.com':1,
    'bigbangtheory.com':0,
    'hot18bangbang.com':1,
     ...
     ...
}

等等，我收集了相当多的“坏”urls，所以我想我可以训练一些AI分类器。如果这是个坏主意，你能推荐我一些从“好”urls中过滤出“坏”urls的方法吗？

python

machine-learning

artificial-intelligence

回答 2

Stack Overflow用户

发布于 2016-10-09 02:24:03

对于逻辑回归来说，这是一个很好的用例，但对于Stack Overflow来说，这不是一个很好的问题。如果你已经有了训练数据，去找一个工具(或者自己实现它，因为它不会那么困难)，然后问一个问题，关于你在让它工作时遇到的麻烦。堆栈溢出不是推荐工具使用的地方。

票数 1

Stack Overflow用户

发布于 2016-10-09 02:24:29

现代的方法是使用字符级LSTM序列分类器。虽然它需要相当多的数据，但应该不会太难找到，例如，通过获取家庭过滤器黑名单的示例。

以下是该概念的一些示例：

我想从这里开始，这是一篇关于字符级LSTM的很酷的文章：The Unreasonable Effectiveness of Recurrent Neural Networks LSTM

递归神经网络是一种神经网络，它将自己的输出作为下一步的输入，或者学习输出状态向量，这些状态向量在下一步传递给自己的细胞，以表示短期记忆。

基本上，你的特征是字母的子序列序列(也就是，友情在一个热门表示中变成了[frie, frien, riend, iends, endsh, ...] )，你有一个神经网络，它的状态随着它看到的子序列而演变，并在结束时给你一个判断。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39935279

复制

相似问题

问自学习url过滤器
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自学习url过滤器EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自学习url过滤器
EN