文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Hpricot ( Rails)抓取隐藏的HTML (当可见时= false)

问使用Hpricot ( Rails)抓取隐藏的HTML (当可见时= false)
EN

Stack Overflow用户

提问于 2009-11-12 01:23:59

回答 3查看 4.6K关注 0票数 0

我遇到了一个问题，不幸的是，我似乎无法超越，我也只是一个新生的rails

我正在尝试刮一个网页，例如：

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo.aspx

我想刮下下一页的地址、电话和网址，在本例中是

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo+Ismol.aspx

我一直在尝试任何我能想到的东西，但是由于它们被设置为无形的东西，似乎没有什么起作用的。

该地址位于h3标记内，但似乎不可报废。我也从下面的url http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/中了解了http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/，但是我确实找不到如何在本例中应用它们的正面或反面。

我真的很感激任何指点，因为这是一个障碍，我真的需要超越，以推进我的任务。提前感谢您的帮助。

html

ruby-on-rails

screen-scraping

hpricot

scrubyt

回答 3

Stack Overflow用户

发布于 2009-11-13 08:44:57

在您给出的特定示例中，元素不是隐藏的，而是在页面加载后通过ajax加载的。因此，基本上您需要的是一个http客户端，它可以运行javascript (web浏览器？)去看那些地址和其他内容。

如果您想真正自动化这个过程并刮掉通过ajax或javascript获得的数据，您可以尝试硒。尽管它不是为了这个目的而开发的，但它满足了你的需要。

票数 1

Stack Overflow用户

发布于 2009-11-12 16:02:16

我对你的具体问题没有答案，但我想我应该指出瑞安·贝茨在荧屏上的最新一集“红宝石：http://railscasts.com/episodes/173-screen-scraping-with-scrapi”

他使用一个名为scrAPI的库，而不是ScRUBYt，因为他无法让ScRUBYt工作。scrAPI似乎更容易一些，也许？

我希望这能对你的作业有所帮助，祝你好运！:)

-John

票数 0

Stack Overflow用户

发布于 2009-11-28 18:01:13

在谷歌集团上有一个很好的脚本。它似乎提取了地址等。您可能需要查看脚本page.txt的代码。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1719268

复制

相似问题

问使用Hpricot ( Rails)抓取隐藏的HTML (当可见时= false)
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Hpricot ( Rails)抓取隐藏的HTML (当可见时= false)EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Hpricot ( Rails)抓取隐藏的HTML (当可见时= false)
EN