我遇到了一个问题,不幸的是,我似乎无法超越,我也只是一个新生的rails
我正在尝试刮一个网页,例如:
http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo.aspx我想刮下下一页的地址、电话和网址,在本例中是
http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo+Ismol.aspx我一直在尝试任何我能想到的东西,但是由于它们被设置为无形的东西,似乎没有什么起作用的。
该地址位于h3标记内,但似乎不可报废。我也从下面的url http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/中了解了http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/,但是我确实找不到如何在本例中应用它们的正面或反面。
我真的很感激任何指点,因为这是一个障碍,我真的需要超越,以推进我的任务。提前感谢您的帮助。
发布于 2009-11-13 08:44:57
在您给出的特定示例中,元素不是隐藏的,而是在页面加载后通过ajax加载的。因此,基本上您需要的是一个http客户端,它可以运行javascript (web浏览器?)去看那些地址和其他内容。
如果您想真正自动化这个过程并刮掉通过ajax或javascript获得的数据,您可以尝试硒。尽管它不是为了这个目的而开发的,但它满足了你的需要。
发布于 2009-11-12 16:02:16
我对你的具体问题没有答案,但我想我应该指出瑞安·贝茨在荧屏上的最新一集“红宝石:http://railscasts.com/episodes/173-screen-scraping-with-scrapi”
他使用一个名为scrAPI的库,而不是ScRUBYt,因为他无法让ScRUBYt工作。scrAPI似乎更容易一些,也许?
我希望这能对你的作业有所帮助,祝你好运!:)
-John
发布于 2009-11-28 18:01:13
在谷歌集团上有一个很好的脚本。它似乎提取了地址等。您可能需要查看脚本page.txt的代码。
https://stackoverflow.com/questions/1719268
复制相似问题