首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从Nutch爬行网页数据库中获取XML格式的信息

如何从Nutch爬行网页数据库中获取XML格式的信息
EN

Stack Overflow用户
提问于 2013-04-10 02:21:37
回答 1查看 150关注 0票数 1

我正在尝试建立图书聚合门户。Nutch为我提供了优秀的网络爬虫,但我想要非常具体的信息,如书名,书价,ISBN,作者等。如何从爬虫页面提取这些信息?如果可能的话,我想以XML格式获取这些信息。

除此之外,我想问一问,这是不是正确的做法!用其他开源软件能更好地做到这一点吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-04-11 03:11:43

这取决于数据的结构化程度。

我假设你抓取的主要是HTML页面。

通常,您可以使用XPath来获取页面的某些部分,例如“//div@class=‘book’/a/text()”

如果大部分文本是非结构化的(没有结构化的HTML模式可供抓取),那么您将不得不使用正则表达式或信息提取。

如果你幸运的话,你可以使用正则表达式来做一些/大部分的事情。

对于一些更复杂的结构,您需要使用信息提取/命名实体识别。

您必须训练IE工具(例如Stanford's CoreNLP )来识别书名,并在文档中对其进行注释。也可以查看BRAT Rapid Annotation Tool

像Mozenda这样的服务可以为你做爬行和X-Path工作,但我还没有看到一家公司提供IE服务。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15909558

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档