首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何用javascript编写这个爬虫?

如何用javascript编写这个爬虫?
EN

Stack Overflow用户
提问于 2010-09-29 01:48:02
回答 2查看 401关注 0票数 1

这个想法很简单:

想象一下一个简单的白色页面,它的表单只有一个input标签(就像google主页)。当我在此表单中插入博客文章的链接时,javascript-crawler将搜索博客文章网页中的第一个图像(通过ajax ),将其显示在白色页面中,并将其保存在我的服务器上。

这个爬虫就像Digg和Facebook-wall一样工作。

我必须为这个爬虫使用什么函数?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-09-29 01:50:07

由于cross cross domain restrictions的存在,纯javascript爬虫并不常见,在实际应用中也不可行。您可能需要设置一个服务器端脚本,该脚本将接收在表单中输入的地址,获取远程资源的内容,并解析html以获得图像。

票数 3
EN

Stack Overflow用户

发布于 2010-10-17 08:43:16

Darin是对的,javascript不能从另一个域请求内容。但它可以动态地向文档中添加脚本标签,并包含来自其他域的一些脚本。(详情:jsonp)

我可以建议您使用YQL。只需编写Javascript代码,您就可以使用Yahoo的YQL库抓取您想要的每一个页面。Yahoo服务器获取您所请求的urls,解析HTML并将所请求的部分文档发送给您。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3815568

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档