我已经编写了一个基于“学习”技术的抽取器--即指定页面上的当前文本并让它自己计算出XPath表达式。但是,我现在想导出提取器,以便即使页面发生更改也可以使用它。
现在似乎到处都是关于scrubyt的文档,但从我所能找到的来看,我应该能够将行extractor.export(__FILE__)放入其中,并且它应该可以工作。它没有-我只是得到了一个错误,说导出的参数数量错误,应该是0。我试过了,没有任何争论,但还是失败了。
我会在scrubyt论坛上询问,但似乎已经很久没有人在那里了!
你知道该怎么做吗?
发布于 2011-03-25 17:33:25
刚刚遇到了同样的问题,并尝试"puts google_data.export()“(试图从谷歌获取一些东西)
这给了我以下几点:
===提取器树===
export()目前不起作用,因为删除或
ParseTree、ruby2ruby和RubyInline。现在,如果您正在使用示例,您可以根据下面的输出手动替换它们。所以如果你在学习提取器中的模式看起来像
book /table1/tr/td2然后将"Ruby Cookbook“替换为"/table1/tr/td2”(以及所有
其他XPaths),您就准备好了!link /body/div/ol/li/h3/a
这给了我正在寻找的xpath。
scrubyt版本为0.4.06
https://stackoverflow.com/questions/2934776
复制相似问题