首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对于Python,有类似于readability.js的东西吗?

对于Python,有类似于readability.js的东西吗?
EN

Stack Overflow用户
提问于 2010-05-27 12:53:27
回答 6查看 5.2K关注 0票数 14

我正在寻找一个包/模块/函数等,它大约相当于Arc90 90的readability.js。

http://lab.arc90.com/experiments/readability

http://lab.arc90.com/experiments/readability/js/readability.js

这样我就可以给它一些input.html,结果是清除了那个html页面的“主文本”的版本。我希望这样做,这样我就可以在服务器端使用它(与只运行在浏览器端的JS版本不同)。

有什么想法吗?

PS:我尝试过Rhino + env.js,这种组合很有效,但是性能是不可接受的,清理大部分html内容需要几分钟的时间:(仍然找不出为什么会有这么大的性能差异)。

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2011-06-16 15:34:21

请尝试我的叉https://github.com/buriy/python-readability,它是快速和所有最新的javascript版本的功能。

票数 11
EN

Stack Overflow用户

发布于 2010-05-31 19:47:57

我们刚刚在repustate.com上发布了一个新的自然语言处理API。使用REST,您可以清除任何HTML或PDF,只获取文本部分。我们的API是免费的,所以您可以随意使用它来满足您的需要。它是用python实现的。检查一下,并将结果与readability.js进行比较--我想你会发现它们几乎是100%相同的。

票数 4
EN

Stack Overflow用户

发布于 2010-09-07 01:11:09

hn.py通过可读性博客。应用程序引擎应用程序可读的提要利用它。

我已经将它打包成一个pip可安装的模块,在这里:http://github.com/srid/readability

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2921237

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档