我正在尝试使用以下代码从https://www.nypl.org/locations/list中抓取库列表:
req = urllib2.Request('https://www.nypl.org/locations/list', headers={'User-Agent' : "Magic Browser"})
library = urllib2.urlopen( req ).read()
soup = BeautifulSoup(library)然而,soup对象似乎并不包含所有元素,更重要的是列表(即tbody标签)。我需要进行AJAX调用来抓取列表吗?这里我漏掉了什么?
发布于 2015-11-16 21:18:39
您可以通过直接解析此应用程序用于加载数据的api (即端点)来避免动态内容
https://refinery.nypl.org/api/nypl/locations/v1.0/locationshttps://stackoverflow.com/questions/33736104
复制相似问题