首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >爬行url \如何在node.js中获取动态链接

爬行url \如何在node.js中获取动态链接
EN

Stack Overflow用户
提问于 2016-07-23 20:25:04
回答 1查看 597关注 0票数 2

我正在使用js爬虫来抓取网站,现在我遇到了CNN,它的登陆页面链接在里面。的那一部分(基于某种原因动态生成的urls)。事情是爬虫,不要真正接触脚本-我应该如何解决它?除了我的node.js爬虫之外,我还应该编写自己的代码吗?是否有先进的爬虫知道如何处理这种动态行为?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-25 07:42:22

把我的评论变成一个回答:

抓取由客户端Javascript生成的内容是一个复杂的问题,甚至连Google都没有完全解决。

真正做到这一点的唯一方法是使用某种无头浏览器,在服务器上安全地进行沙箱,将页面加载到类似浏览器的环境中,在该环境中,它可以运行自己的脚本并生成自己的内容,然后您可以检查产生的DOM。

即便如此,它也不一定会生成需要用户交互的内容(比如单击选项卡以显示某些内容)。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38546114

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档