我必须从新闻链接中提取发布时间和文章内容。
例如:从这个链接http://techcrunch.com/2013/03/19/jawbone-android/
我必须将发布时间和文章内容提取为
发布时间:昨天发布
文章内容: Jawbone今天宣布,该公司的运动跟踪腕带UP的应用程序现在可以在Google Play上免费下载。129美元的价格之前只与iOS兼容。腕带现在也可以买到了......
发布于 2013-03-20 18:15:16
我想你可以用jsoup
http://jsoup.org/
jsoup是一个Java库,用于处理真实的HTML。它提供了一个非常方便的API来提取和操作数据,使用了最好的DOM、CSS和类似jquery的方法。
发布于 2016-01-27 20:00:51
对于文章-文本提取,您可以使用BoilerPipe
ArticleExtractor extractor = ArticleExtractor.INSTANCE
String articleText = extractor.getText(yourHTML);https://stackoverflow.com/questions/15520621
复制相似问题