上周,我开始用Ruby编写一个脚本。我需要从网络上抓取一些数据,所以我被告知要使用机械化,然后使用诺科吉里。
机械文档说:
机械化使用nokogiri解析html。这对你意味着什么?您可以将机械页面视为nokogiri对象。在使用机械化导航到需要抓取的页面之后,然后使用nokogiri方法对其进行刮除。
我知道我可以使用xpath或at_xpath,因为它是"如何使用Nokogiri解析HTML表?“的一部分,但我不知道这些方法的确切语法、区别等等。
我在"xpath“中被告知
我经常使用text()表达式。这不是使用Nokogiri所必需的。您可以检索节点,然后调用节点上的text方法。便宜多了。
我试着搜索诺科吉里的文档,但没有找到任何东西。
有没有人能帮我读诺科吉里的文件?
我想知道如何使用text方法而不是text()。
发布于 2010-02-06 20:07:55
当我阅读Nokogiri文档时,我并不确定问题是什么。快速搜索Google上的"nokogiri“返回"nokogiri.org”作为第一个热门。这是文档页面。
在Ruby中,如果不传递参数,text()与text是相同的。text()是inner_text()的别名,它将
获取所有包含的节点对象的内部文本。
搜索nokogiri.org中的“文本”会让你开始的。
发布于 2010-06-25 15:16:21
我认为作者的意思之一是,站点上的文档是,而不是标准格式/显示,因为其他站点使用rdoc和各种方法来显示信息。它很难读懂。
回答,或尝试-我已经很幸运地在github搜索使用nokogiri的项目,并从那里阅读源代码。
https://stackoverflow.com/questions/2126838
复制相似问题