我正在寻找一个包/模块/函数等,它大约相当于Arc90 90的readability.js。
http://lab.arc90.com/experiments/readability
http://lab.arc90.com/experiments/readability/js/readability.js
这样我就可以给它一些input.html,结果是清除了那个html页面的“主文本”的版本。我希望这样做,这样我就可以在服务器端使用它(与只运行在浏览器端的JS版本不同)。
有什么想法吗?
PS:我尝试过Rhino + env.js,这种组合很有效,但是性能是不可接受的,清理大部分html内容需要几分钟的时间:(仍然找不出为什么会有这么大的性能差异)。
发布于 2011-06-16 15:34:21
请尝试我的叉https://github.com/buriy/python-readability,它是快速和所有最新的javascript版本的功能。
发布于 2010-05-31 19:47:57
我们刚刚在repustate.com上发布了一个新的自然语言处理API。使用REST,您可以清除任何HTML或PDF,只获取文本部分。我们的API是免费的,所以您可以随意使用它来满足您的需要。它是用python实现的。检查一下,并将结果与readability.js进行比较--我想你会发现它们几乎是100%相同的。
发布于 2010-09-07 01:11:09
hn.py通过可读性博客。应用程序引擎应用程序可读的提要利用它。
我已经将它打包成一个pip可安装的模块,在这里:http://github.com/srid/readability。
https://stackoverflow.com/questions/2921237
复制相似问题