我需要从YouTube下载PSY的江南风格视频的所有评论(超过260万条评论,5000多页),参见:comments?v=9bZkp7q19f0
问题是:
1)如果我使用gdata服务,google只提供最多1000个评论提要
2)如果我直接从以下位置抓取html标记:
site(http://www.youtube.com/all_comments?v=9bZkp7q19f0&page=$(page))通过增加页面参数,它将在页面#101之后失败,在该页面中没有显示注释。
所以请大家注意,我怎样才能解决这个问题?
P.S:我的爬虫是使用javascript作为一个chrome扩展实现的,它检查加载页面的注释标记,然后加载下一个页面。
发布于 2012-11-03 13:22:25
您可能可以通过爬行页面并针对遇到的问题对代码进行黑客攻击来提取数据,但这不是正确的方法。
您应该为此使用youtube api,并检查与此相关的其他开发人员资源。
https://stackoverflow.com/questions/13209520
复制相似问题