文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从Nutch爬行网页数据库中获取XML格式的信息

问如何从Nutch爬行网页数据库中获取XML格式的信息
EN

Stack Overflow用户

提问于 2013-04-10 02:21:37

回答 1查看 150关注 0票数 1

我正在尝试建立图书聚合门户。Nutch为我提供了优秀的网络爬虫，但我想要非常具体的信息，如书名，书价，ISBN，作者等。如何从爬虫页面提取这些信息？如果可能的话，我想以XML格式获取这些信息。

除此之外，我想问一问，这是不是正确的做法！用其他开源软件能更好地做到这一点吗？

xml

nutch

aggregation

text-mining

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-04-11 03:11:43

这取决于数据的结构化程度。

我假设你抓取的主要是HTML页面。

通常，您可以使用XPath来获取页面的某些部分，例如“//div@class=‘book’/a/text()”

如果大部分文本是非结构化的(没有结构化的HTML模式可供抓取)，那么您将不得不使用正则表达式或信息提取。

如果你幸运的话，你可以使用正则表达式来做一些/大部分的事情。

对于一些更复杂的结构，您需要使用信息提取/命名实体识别。

您必须训练IE工具(例如Stanford's CoreNLP )来识别书名，并在文档中对其进行注释。也可以查看BRAT Rapid Annotation Tool。

像Mozenda这样的服务可以为你做爬行和X-Path工作，但我还没有看到一家公司提供IE服务。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15909558

复制

相似问题

问如何从Nutch爬行网页数据库中获取XML格式的信息
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从Nutch爬行网页数据库中获取XML格式的信息EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从Nutch爬行网页数据库中获取XML格式的信息
EN