我正在使用boilerpipe库来分析新闻文章。这些新闻文章包含大量的样板文件,如版权信息、相关文章的侧栏等。Boilerpipe删除了所有这些信息。是否可以返回样板信息?我需要分析并从版权声明中提取一些东西,等等。
此外,它是否包含每个文本块的某种置信度,以确定它是否是样板?
谢谢。
发布于 2013-10-21 16:57:23
您可以使用Document classes样板提供的文档获取整个文本或遍历实际的文本块:
final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the documenthttps://stackoverflow.com/questions/19109753
复制相似问题