我想从网站上抓取数据。在本网站中:
HTML:
<div>
<ul>
<li><a href="http://.../place1">Place1</a></li>
<li><a href="http://.../place2">Place2</a></li>
</ul>
</div>在“http://.../place1”中:
<div>
<p>Place 1</p>
<img src="...">
<div>如何使用‘Nokogiri’gem抓取href中的数据?(单击时其他页面中的数据)
当我进行研究时,我只找到在页面中爬行数据的方法。找不到如何抓取href页面中的数据。谢谢
发布于 2018-03-19 13:42:57
为了抓取href中的数据,您必须创建一个新的请求来抓取其中的数据。
...
# require 'open-uri'
href = 'http://.../place1'
doc = Nokogiri::HTML(open(href))
...发布于 2018-03-19 14:54:45
你可以通过.css方法获取所有的链接。然后你就可以像这样爬行了
# require 'open-uri'
links = doc.css('a').map { |link| link['href'] }
links.each do |link|
doc = Nokogiri::HTML(open(link))
endhttps://stackoverflow.com/questions/49355484
复制相似问题