首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >类Instapaper算法

类Instapaper算法
EN

Stack Overflow用户
提问于 2010-11-26 15:53:52
回答 4查看 8.7K关注 0票数 36

有人知道从网页中提取内容的算法吗?像instapaper一样

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-11-26 16:09:59

Instapaper的功能有两个步骤:

  1. 在页面上查找主要内容块(不包括页眉、页脚、菜单等)
  2. 从此内容块提取文本并设置其格式

为了找到内容块(通常是一些html块元素,比如包含关键页面文本内容的div ),Instapaper使用的算法与readability使用的算法非常相似。你可以看看source of readability.js,看看是怎么回事,但它的核心是试图找到页面上文本/链接比率最高的区域,尽管它还有其他一些简单的评分指标(例如,在我的头顶上,文本与逗号的比率,段落元素等)进入启发式。

一旦您确定了带有相关内容的根节点元素,您将需要格式化它,如果需要,您可以将包含文本的节点元素从源文档中拉出并将其插入到您的文档中,但实际上您可能希望删除现有样式并应用您自己的样式,以获得标准的外观。如果您希望输出为纯文本,则可以使用Jericho的Renderer

update1:我还应该提到Instapaper做的其他事情--那就是遵循文章的“分页”链接(“下一页”或"1“、"2”、"3“链接)直到文章的结论,这样一篇可能跨越多页原文的文章将作为一个单独的文档呈现给您。

update2我最近遇到了这个

票数 49
EN

Stack Overflow用户

发布于 2010-12-21 07:10:19

有一个开源应用程序可以从任何网页中解析出文章的文本

https://github.com/jiminoc/goose/wiki

应该能起到作用

票数 6
EN

Stack Overflow用户

发布于 2012-02-04 19:16:08

boilerpipe是开源java。该算法发表在一篇科学论文中,因此您可以阅读它与其他算法相比有多好。阅读它似乎是最好的选择之一。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4283418

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档