首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Hpricot ( Rails)抓取隐藏的HTML (当可见时= false)

使用Hpricot ( Rails)抓取隐藏的HTML (当可见时= false)
EN

Stack Overflow用户
提问于 2009-11-12 01:23:59
回答 3查看 4.6K关注 0票数 0

我遇到了一个问题,不幸的是,我似乎无法超越,我也只是一个新生的rails

我正在尝试刮一个网页,例如:

代码语言:javascript
复制
http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo.aspx

我想刮下下一页的地址、电话和网址,在本例中是

代码语言:javascript
复制
http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo+Ismol.aspx

我一直在尝试任何我能想到的东西,但是由于它们被设置为无形的东西,似乎没有什么起作用的。

该地址位于h3标记内,但似乎不可报废。我也从下面的url http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/中了解了http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/,但是我确实找不到如何在本例中应用它们的正面或反面。

我真的很感激任何指点,因为这是一个障碍,我真的需要超越,以推进我的任务。提前感谢您的帮助。

EN

回答 3

Stack Overflow用户

发布于 2009-11-13 08:44:57

在您给出的特定示例中,元素不是隐藏的,而是在页面加载后通过ajax加载的。因此,基本上您需要的是一个http客户端,它可以运行javascript (web浏览器?)去看那些地址和其他内容。

如果您想真正自动化这个过程并刮掉通过ajax或javascript获得的数据,您可以尝试。尽管它不是为了这个目的而开发的,但它满足了你的需要。

票数 1
EN

Stack Overflow用户

发布于 2009-11-12 16:02:16

我对你的具体问题没有答案,但我想我应该指出瑞安·贝茨在荧屏上的最新一集“红宝石:http://railscasts.com/episodes/173-screen-scraping-with-scrapi

他使用一个名为scrAPI的库,而不是ScRUBYt,因为他无法让ScRUBYt工作。scrAPI似乎更容易一些,也许?

我希望这能对你的作业有所帮助,祝你好运!:)

-John

票数 0
EN

Stack Overflow用户

发布于 2009-11-28 18:01:13

谷歌集团上有一个很好的脚本。它似乎提取了地址等。您可能需要查看脚本page.txt的代码。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1719268

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档