首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用java从新闻文章中提取发布时间和文章内容?

如何使用java从新闻文章中提取发布时间和文章内容?
EN

Stack Overflow用户
提问于 2013-03-20 18:11:53
回答 2查看 1.1K关注 0票数 1

我必须从新闻链接中提取发布时间和文章内容。

例如:从这个链接http://techcrunch.com/2013/03/19/jawbone-android/

我必须将发布时间和文章内容提取为

发布时间:昨天发布

文章内容: Jawbone今天宣布,该公司的运动跟踪腕带UP的应用程序现在可以在Google Play上免费下载。129美元的价格之前只与iOS兼容。腕带现在也可以买到了......

EN

回答 2

Stack Overflow用户

发布于 2013-03-20 18:15:16

我想你可以用jsoup

http://jsoup.org/

jsoup是一个Java库,用于处理真实的HTML。它提供了一个非常方便的API来提取和操作数据,使用了最好的DOM、CSS和类似jquery的方法。

票数 2
EN

Stack Overflow用户

发布于 2016-01-27 20:00:51

对于文章-文本提取,您可以使用BoilerPipe

代码语言:javascript
复制
 ArticleExtractor extractor = ArticleExtractor.INSTANCE
 String articleText = extractor.getText(yourHTML);
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15520621

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档