首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何实现类似于Arc90's Readability或Instapaper之类的html页面擦除器?

如何实现类似于Arc90's Readability或Instapaper之类的html页面擦除器?
EN

Stack Overflow用户
提问于 2010-09-16 15:39:08
回答 3查看 4.4K关注 0票数 3

我感兴趣的是如何清理html页面并很好地呈现它--去掉所有杂乱的东西,并将正文重新格式化为可读性很好的格式--比如http://lab.arc90.com/experiments/readability或Instapaper。

它是一个简单的页面,解析并删除不在

这是在别的地方讨论过的吗?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-12-21 07:12:35

https://github.com/jiminoc/goose/wiki做了您想要做的事情,源代码和单元测试都是开放的

票数 4
EN

Stack Overflow用户

发布于 2012-03-09 22:03:54

可读性不是一个简单的解析器,它使用复杂的算法来检索所需的组件,如果你不是编程大师,我建议你使用下面突出显示的免费服务。

您可以从可读性(http://www.readability.com/publishers/api)请求开发者api

如果你请求解析器,它会做你想要实现的事情,那就是从站点中提取内容。只要记得给他们一个足够好的理由让你使用他们的API即可。

对它们的解析服务的查询将如下所示

https://www.readability.com/api/content/v1/parser?url={此处解析url}&token={您的api密钥此处}

请求将返回如下响应:

HTTP/1.0 200 OK { "domain":"blog.readability.com","author":"Richard Ziade","url":"http://blog.readability.com/2011/02/step-up-be-heard-readability-ideas/"

"short_url":"http://rdd.me/kbgr5a1k","title":“提高和被听到:可读性想法”,"total_pages":1,"word_count":175,"content":"\n \n

\n\t启动可读性snip ...\n时,"date_published":"2011-02-22 00:00:00","next_page_id":null,"rendered_pages":1}

对于铁杆的人来说,可以从这里的http://arrix.blogspot.com/2010/11/server-side-readability-with-nodejs.html查看可读性nodeJS、ruby和python端口

快乐编码

票数 7
EN

Stack Overflow用户

发布于 2010-09-16 21:05:28

如果有问题的web页面或站点很好地使用了语义元素和结构,您可以只使用不同的CSS样式表,这可以彻底改变布局和显示。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3724619

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档