我试图抓取一个页面,这是由javascript修改后,在Raspberri Pi上使用Scrapy的初始加载。
我试图安装docker和scrapinghub/splash来渲染页面,然后再将其传递给scrapy,但我意识到Splash还不支持ARM。在Raspberry Pi上使用javascript和Scrapy来抓取页面还有其他选择吗?
目前,在站点上使用普通的scrapy请求,我只能得到这个html,这是因为站点首先加载,然后javascript呈现整个内容。所以在javascript之前,页面源代码看起来是空的:
<body class="notie8 notie9 lang-{{html.lang}}">
<!--<![endif]-->
<div loading-line></div>
<div page-layout>
<div ng-view></div>
</div>
</body>
</html>作为参考,我所指的站点是:https://www.sreality.cz/hledani/prodej/byty?region=brno
发布于 2017-08-13 21:40:37
Sreality使用API,这不是一种可行的方法吗?对于您的网址,有这样一个API调用:https://www.sreality.cz/api/cs/v2/estates?category_main_cb=1&category_type_cb=1&per_page=20®ion=brno&tms=1502631428897 (在浏览器的开发人员工具中查找XHR请求)。
https://stackoverflow.com/questions/45659532
复制相似问题