我正在尝试建立图书聚合门户。Nutch为我提供了优秀的网络爬虫,但我想要非常具体的信息,如书名,书价,ISBN,作者等。如何从爬虫页面提取这些信息?如果可能的话,我想以XML格式获取这些信息。
除此之外,我想问一问,这是不是正确的做法!用其他开源软件能更好地做到这一点吗?
发布于 2013-04-11 03:11:43
这取决于数据的结构化程度。
我假设你抓取的主要是HTML页面。
通常,您可以使用XPath来获取页面的某些部分,例如“//div@class=‘book’/a/text()”
如果大部分文本是非结构化的(没有结构化的HTML模式可供抓取),那么您将不得不使用正则表达式或信息提取。
如果你幸运的话,你可以使用正则表达式来做一些/大部分的事情。
对于一些更复杂的结构,您需要使用信息提取/命名实体识别。
您必须训练IE工具(例如Stanford's CoreNLP )来识别书名,并在文档中对其进行注释。也可以查看BRAT Rapid Annotation Tool。
像Mozenda这样的服务可以为你做爬行和X-Path工作,但我还没有看到一家公司提供IE服务。
https://stackoverflow.com/questions/15909558
复制相似问题