这个想法很简单:
想象一下一个简单的白色页面,它的表单只有一个input标签(就像google主页)。当我在此表单中插入博客文章的链接时,javascript-crawler将搜索博客文章网页中的第一个图像(通过ajax ),将其显示在白色页面中,并将其保存在我的服务器上。
这个爬虫就像Digg和Facebook-wall一样工作。
我必须为这个爬虫使用什么函数?
发布于 2010-09-29 01:50:07
由于cross cross domain restrictions的存在,纯javascript爬虫并不常见,在实际应用中也不可行。您可能需要设置一个服务器端脚本,该脚本将接收在表单中输入的地址,获取远程资源的内容,并解析html以获得图像。
发布于 2010-10-17 08:43:16
Darin是对的,javascript不能从另一个域请求内容。但它可以动态地向文档中添加脚本标签,并包含来自其他域的一些脚本。(详情:jsonp)
我可以建议您使用YQL。只需编写Javascript代码,您就可以使用Yahoo的YQL库抓取您想要的每一个页面。Yahoo服务器获取您所请求的urls,解析HTML并将所请求的部分文档发送给您。
https://stackoverflow.com/questions/3815568
复制相似问题