问使用boilerpipe保留样板文件
EN

Stack Overflow用户

提问于 2013-10-01 14:51:59

回答 1查看 95关注 0票数 0

此外，它是否包含每个文本块的某种置信度，以确定它是否是样板？

谢谢。

boilerpipe

回答 1

Stack Overflow用户

发布于 2013-10-21 16:57:23

您可以使用Document classes样板提供的文档获取整个文本或遍历实际的文本块：

final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19109753

复制

相似问题

问使用boilerpipe保留样板文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用boilerpipe保留样板文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用boilerpipe保留样板文件
EN