开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >从HTML中提取文章的标题(使用Boilerpipe)

问从HTML中提取文章的标题(使用Boilerpipe)
EN

Stack Overflow用户

提问于 2016-10-21 16:27:09

回答 1查看 233关注 0票数 0

Boilerpipe允许从网页中只提取文章的文本，清理掉所有的HTML乱七八糟的东西。但是，我如何提取文章的标题？有一种只使用页面标题的方法，但有时是不正确的，并且包含不需要的单词(例如“title - sitename")。

另一个想法是在<h1>和</h1>之间查找文本，但我仍然认为我会问一些更多的解决方案。

html-content-extraction

EN

回答 1

Stack Overflow用户

发布于 2016-10-21 17:33:52

你在写一个网络爬虫吗？我认为困难在于你需要知道标题在整个html中的位置。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40171797

复制

相似问题