Boilerpipe允许从网页中只提取文章的文本,清理掉所有的HTML乱七八糟的东西。但是,我如何提取文章的标题?有一种只使用页面标题的方法,但有时是不正确的,并且包含不需要的单词(例如“title - sitename")。
另一个想法是在<h1>和</h1>之间查找文本,但我仍然认为我会问一些更多的解决方案。
发布于 2016-10-21 17:33:52
你在写一个网络爬虫吗?我认为困难在于你需要知道标题在整个html中的位置。
https://stackoverflow.com/questions/40171797
复制相似问题