首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用boilerpipe保留样板文件

使用boilerpipe保留样板文件
EN

Stack Overflow用户
提问于 2013-10-01 14:51:59
回答 1查看 95关注 0票数 0

我正在使用boilerpipe库来分析新闻文章。这些新闻文章包含大量的样板文件,如版权信息、相关文章的侧栏等。Boilerpipe删除了所有这些信息。是否可以返回样板信息?我需要分析并从版权声明中提取一些东西,等等。

此外,它是否包含每个文本块的某种置信度,以确定它是否是样板?

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2013-10-21 16:57:23

您可以使用Document classes样板提供的文档获取整个文本或遍历实际的文本块:

代码语言:javascript
复制
final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19109753

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档