首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自学习url过滤器

自学习url过滤器
EN

Stack Overflow用户
提问于 2016-10-09 01:28:49
回答 2查看 330关注 0票数 0

我需要通过python脚本将给定的url分类为色情或非色情(而不是通过亲自访问和观看视频),我考虑通过对每个url包含的单词进行分类来计算色情概率,例如,如果url包含单词'bang‘和'18’,则其色情网站的概率很高,我尝试实现它,但它不是很准确,有没有python库可以帮助我对这些url进行分类?我正在寻找可以从测试数据中学习的库,比如智能反垃圾邮件过滤器,比如:

代码语言:javascript
复制
    data = {
    'google.com':0,
    'superxxx.com':1,
    'bigbangtheory.com':0,
    'hot18bangbang.com':1,
     ...
     ...
}

等等,我收集了相当多的“坏”urls,所以我想我可以训练一些AI分类器。如果这是个坏主意,你能推荐我一些从“好”urls中过滤出“坏”urls的方法吗?

EN

回答 2

Stack Overflow用户

发布于 2016-10-09 02:24:03

对于逻辑回归来说,这是一个很好的用例,但对于Stack Overflow来说,这不是一个很好的问题。如果你已经有了训练数据,去找一个工具(或者自己实现它,因为它不会那么困难),然后问一个问题,关于你在让它工作时遇到的麻烦。堆栈溢出不是推荐工具使用的地方。

票数 1
EN

Stack Overflow用户

发布于 2016-10-09 02:24:29

现代的方法是使用字符级LSTM序列分类器。虽然它需要相当多的数据,但应该不会太难找到,例如,通过获取家庭过滤器黑名单的示例。

以下是该概念的一些示例:

  • 我想从这里开始,这是一篇关于字符级LSTM的很酷的文章:The Unreasonable Effectiveness of Recurrent Neural Networks LSTM

递归神经网络是一种神经网络,它将自己的输出作为下一步的输入,或者学习输出状态向量,这些状态向量在下一步传递给自己的细胞,以表示短期记忆。

基本上,你的特征是字母的子序列序列(也就是,友情在一个热门表示中变成了[frie, frien, riend, iends, endsh, ...] ),你有一个神经网络,它的状态随着它看到的子序列而演变,并在结束时给你一个判断。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39935279

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档