我需要通过python脚本将给定的url分类为色情或非色情(而不是通过亲自访问和观看视频),我考虑通过对每个url包含的单词进行分类来计算色情概率,例如,如果url包含单词'bang‘和'18’,则其色情网站的概率很高,我尝试实现它,但它不是很准确,有没有python库可以帮助我对这些url进行分类?我正在寻找可以从测试数据中学习的库,比如智能反垃圾邮件过滤器,比如:
data = {
'google.com':0,
'superxxx.com':1,
'bigbangtheory.com':0,
'hot18bangbang.com':1,
...
...
}等等,我收集了相当多的“坏”urls,所以我想我可以训练一些AI分类器。如果这是个坏主意,你能推荐我一些从“好”urls中过滤出“坏”urls的方法吗?
发布于 2016-10-09 02:24:03
对于逻辑回归来说,这是一个很好的用例,但对于Stack Overflow来说,这不是一个很好的问题。如果你已经有了训练数据,去找一个工具(或者自己实现它,因为它不会那么困难),然后问一个问题,关于你在让它工作时遇到的麻烦。堆栈溢出不是推荐工具使用的地方。
发布于 2016-10-09 02:24:29
现代的方法是使用字符级LSTM序列分类器。虽然它需要相当多的数据,但应该不会太难找到,例如,通过获取家庭过滤器黑名单的示例。
以下是该概念的一些示例:
递归神经网络是一种神经网络,它将自己的输出作为下一步的输入,或者学习输出状态向量,这些状态向量在下一步传递给自己的细胞,以表示短期记忆。
基本上,你的特征是字母的子序列序列(也就是,友情在一个热门表示中变成了[frie, frien, riend, iends, endsh, ...] ),你有一个神经网络,它的状态随着它看到的子序列而演变,并在结束时给你一个判断。
https://stackoverflow.com/questions/39935279
复制相似问题