搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大数据
微博爬虫
全文简介本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据，别人网站当然会反爬越来越严厉。至于为什么不爬PC端，原因是移动端较简单，很适合爬虫新手入门。有时间再写PC端吧！环境介绍 Python3 Windows-10-64位微博移动端网页分析以获取评论信息为例（你可以以自己的喜好获得其他数据）。
1.8K50发布于 2018-01-18
来自专栏葫芦
python 新浪微博爬虫
/0070m4EAly8fpp1pwqq26j3050050jrb.jpg 是否认证：False 微博说明：知名财经博主头条文章作者微博签约自媒体关注人数：3301 粉丝数：111 性别：m 微博等级：11 -----正在爬取第1页，第0条微博------ -----正在爬取第1页，第1条微博------ -----正在爬取第1页，第2条微博------ -----正在爬取第1页，第3条微博--- --- -----正在爬取第1页，第4条微博------ -----正在爬取第1页，第5条微博------ -----正在爬取第1页，第6条微博------ -----正在爬取第1页，第7条微博---- -- -----正在爬取第1页，第8条微博------ -----正在爬取第2页，第0条微博------ -----正在爬取第2页，第1条微博------ -----正在爬取第2页，第2条微博----- - -----正在爬取第2页，第3条微博------ """ """ ----第1页，第0条微博---- 微博地址：https://m.weibo.cn/status/GyHojrupo?
1.8K40发布于 2019-04-17
来自专栏月小水长
微博位置爬虫发布
微博数据分析经常需要和地理位置相关联，比如查看某一话题爬虫下发博人员地理分布，或者用户爬虫下某人轨迹分布，等等；而这次的微博位置爬虫则是直接以位置为切入点爬取微博，只需要输入一个地名，就能抓取在该地点发过的微博具体信息这个位置爬虫的结果可以和用户信息爬虫联动，比如有这样一个分析任务：去北京环球影城的人，都发了什么微博，男生多还是女生多，年龄群体分布怎么样，等等。都可以先用这个微博位置爬虫，爬完后的 csv 交给用户信息爬虫处理。闲话不多说，首先在本号（月小水长）后台回复关键词微博位置爬虫获取 pyd 文件（only for python3.6 64 bit)，然后在新建一个 py 文件，引用这个 pyd 文件 from WeiboLocationSpider ，这样就能爬到更多的位置微博数据。
93320发布于 2021-09-24
来自专栏机器学习AI算法工程
新浪微博小爬虫
不光如此，因为有些用户的简介里有一些特殊符号，®或者笑脸之类的，于是在这里纠结了很久，好歹最后是成功了(其实也就是过滤掉了那些特殊符号) 效率来说呢，开始的时候一个小时能采集大概1.4w条微博的用户信息，但是由于我是从每个人的关注列表里采集的，所以很快就会遇到爬到许多已经爬过的用户，所以总的来说效率不是很高，怪不得那个“中国爬盟”要发动群众的力量去爬而且有些担心爬久了微博账号被封，我也没敢尝试太久
1.1K40发布于 2018-03-12
来自专栏用户5305560的专栏
【爬虫】新浪微博爬虫——环境部署
1.先安装Python环境，作者是Python 2.7.8 2.再安装PIP或者easy_install 3.通过命令pip install selenium安装selenium，它是自动测试、爬虫的工具 4.然后修改代码中的用户名和密码，填写你自己的用户名和密码 5.运行程序，自动调用Firefox浏览器登陆微博注意：手机端信息更加精致简单，而且没有动态加载的一些限制，但是如微博或粉丝id只显示 20页，这是它的缺点；而客户端可能存在动态加载，如评论和微博，但是它的信息更加完整。 _1.txt 输出：微博信息及用户基本信息 SinaWeibo_Info_best_1.txt Megry_Result_Best.py 该文件用户整理某一天的用户微博信息，如2016年4月23 日 [源码] 爬取客户端微博信息爬取客户端信息，但是评论是动态加载，还在研究中 weibo_spider2.py
42210发布于 2021-12-02
来自专栏IT民工的代码世界
Java网络爬虫抓取新浪微博个人微博记录
在正题之前，先了解一下java下抓取网页上特定内容的方法，也就是所谓的网络爬虫，在本文中只会涉及简单的文字信息与链接爬取。接下来就是新浪微博的抓取，一般的http访问新浪微博网站得到的html都是很简略的，因为新浪微博主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功，所以为了数据抓取的简便，我们走一个后门，也就是访问新浪微博的手机端，weibo.cn进行抓取，但随之而来的一个问题是，新浪微博的访问不管哪一端都需要强制的登陆验证，所以我们需要在http请求的时候附带一个cookie进行用户验证。在网上找了好久使用webcontroller这个开源的爬虫框架，访问很简便，效率也高，那记下来我们就看看如何使用这个框架。 weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪微博的cookie，这个方法针对weibo.cn
1.2K40编辑于 2023-07-19
来自专栏二爷记
微博爬虫，python微博用户主页小姐姐图片内容采集爬虫
python爬虫，微博爬虫，需要知晓微博用户id号，能够通过抓取微博用户主页内容来获取用户发表的内容，时间，点赞数，转发数等数据，当然以上都是本渣渣结合网上代码抄抄改改获取的！ ? 要抓取的微博地址：https://weibo.com/u/5118612601 BUT，我们实际应用的抓取地址：https://m.weibo.cn/u/5118612601（移动端的微博地址） ? ----" + "\n") fh.write(f"微博地址： {str(scheme)}\n微博内容：{raw_text}\n" 手里头有二份微博爬虫的源码，不同的爬取地址和思路，一起分享给大家，仅供参考学习！一份还包含GUI界面，当然这是本渣渣参考的主要来源代码！ ? 亲测可运行哈！！关注本渣渣微信公众号：二爷记 ? 后台回复关键字：“微博爬虫” 获取所有源码
1.4K20发布于 2020-12-11
来自专栏IT 茂茂
Python爬虫抓取微博评论
.decode("utf-8") # 预登陆获得 servertime, nonce, pubkey, rsakv def get_server_data(self, su): """与原来的相比，微博的登录从注册的手机号） password = "123456" # 密码 cookie_path = "Cookie.txt" # 保存cookie 的文件名称 id = '4477416430959369' # 爬取微博的 ', 'username', 'following', 'followed', 'gender']) start_crawl(get_cookies(), id) 第八步：获取id 你需要获得想要找的微博首先找到你想爬的微博，这里以微博故事为例，在浏览器内按下F12，并且点击评论按钮点击‘网络’，找到一条像图中的get请求。 .decode("utf-8") # 预登陆获得 servertime, nonce, pubkey, rsakv def get_server_data(self, su): """与原来的相比，微博的登录从
2.1K20编辑于 2022-05-11
来自专栏机器学习AI算法工程
python模拟新浪微博登陆功能(新浪微博爬虫)
（Python) PC 登录新浪微博时，在客户端用js预先对用户名、密码都进行了加密，而且在POST之前会GET 一组参数，这也将作为POST_DATA 的一部分。由于要用的一部分微博数据用API获取不方便，所以还是要自己写个小爬虫，模拟登录是必不可少的。琢磨了一下这个东西，最终登录成功。接下来再请求这个URL，这样就成功登录到微博了。记得要提前build 缓存。下面是完整代码（没加注释，凑合看吧）： #! 很多豆友反馈有模拟登录新浪微博抓取数据的需求，其实对于一般的微博数据获取，如用户信息、微博内容等，使用微博开放平台API是更明智的选择：速度更快，而且节省许多网页处理的功夫。熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录微博。如果不那么熟悉的话，其实可以采用更naive的思路来解决：直接将Cookie发送给新浪微博以实现模拟登录。
3.7K60发布于 2018-03-13
来自专栏Python中文社区
Python微博移动端爬虫实例
❈ 本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据，别人网站当然会反爬越来越严厉。至于为什么不爬PC端，原因是移动端较简单，很适合爬虫新手入门。有时间再写PC端吧！环境介绍 Python3/Windows-10-64位/微博移动端网页分析以获取评论信息为例（你可以以自己的喜好获得其他数据）。如下图： ?
1.1K50发布于 2018-02-01
来自专栏企鹅号快讯
Python微博移动端爬虫实例
❈ 本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据，别人网站当然会反爬越来越严厉。至于为什么不爬PC端，原因是移动端较简单，很适合爬虫新手入门。有时间再写PC端吧！环境介绍 Python3/Windows-10-64位/微博移动端网页分析以获取评论信息为例（你可以以自己的喜好获得其他数据）。
1.1K90发布于 2018-01-09
来自专栏coding
python爬虫抓取新浪微博数据
需求分析抓取琢磨先生的新浪微博 ? 微博主页抓取的内容包括：微博发布的时间，正文(仅提取文字)，转发数，评论数，点赞数 ? 抓取的内容数据是怎么加载的新浪微博的数据是用ajax异步下拉加载的，在chrome的调试模式下可捕捉到相应的请求： ? 格陵兰', 'attitudes': 35, 'comments': 18, 'reposts': 1} {'id': '4276459473976711', 'text': '北极微博视频', 'attitudes
7.5K50发布于 2018-09-26
来自专栏月小水长
微博全站爬虫修复更新啦！！！
说在前面的话距离开源微博全站爬虫过去已经快半个月了，陆陆续续收到了一些粉丝们的反馈，包括如何获取 cookies 和主题爬虫模块失效了，以至于后来整个爬虫失效， ? 说一声抱歉，当时那段时间我实在太忙，就没有立刻解决，但是记在备忘录上，但是今天下午终于可以有空闲了，就着手解决了这个问题；问题主要是由微博接口和网页结构的变化引起的，现将有关修改过程及结果修改如下；同时会详介绍如何获取主题微博模块接口变化原来的接口是 res = requests.get(url='https://weibo.cn/search/mblog? 如何获取 cookies cookies 是什么，这里不引经据典了，一句话，cookies 是客户机（也就是你的 Chrome、FireFox 等浏览器）维持会话状态的一段字符串信息，微博就应用了这种技术打开微博登陆首页 https://passport.weibo.cn/signin/login?
77020发布于 2019-12-04
来自专栏月小水长
微博超话爬虫，它来了
这是月小水长的第 119 篇原创干货 as we all known，微博有关键词，话题和超话之分。在 2021 新版微博话题爬虫发布中的新版话题爬虫，把 keyword 设置成 buyixiao 就能抓取关键词微博，设置成 #buyixiao# 就能抓取话题微博。超话，意即超级话题，又不等同于一般的微博话题，它具有独立的页面地址和样式，但是依然可以用 2021 新版微博话题爬虫发布里面的话题爬虫抓取。包含微博 id、用户 id、内容、微博链接，用户名、用户链接、图片(s)链接，转评赞数等十余字段。 https://buyixiao.github.io/blog/weibo-super-spider.html 总结下，就是使用微博话题爬虫就能抓取超话， keyword 设置时加个超话即可。
2.6K20编辑于 2022-04-01
来自专栏月小水长
免 cookie 微博话题爬虫发布
免 cookie cn 微博话题爬虫大家好，我是刚下班的并更新了微博话题爬虫的月小水长。 com 话题爬虫 BugFix 其次是更新了 WeiboCom 话题爬虫的 bug，这周刚发布 2021 微博爬虫更新及使用指南，有读者留言反馈了以下的 bug 现今暂时修复，但是爬虫不会自动停下来了修复的爬虫文件，获取方式依然在 2021 新版微博话题爬虫发布，回复同样的口令即可获取更新。；但是缺点也很明显，不支持高级搜索； weibo.com 的好处是筛选条件更加丰富，时间段颗粒度更细，最细达到了以小时为单位；缺点是需要经常手动更换 cookie；这里给新开的微信小店留个位置，感兴趣的可以看看~ 谢谢大家关注，微博爬虫将持续更新，明早或周一更新微博用户信息爬虫~
73920发布于 2021-09-24
来自专栏Python中文社区
微博爬虫开源项目汇总大全
- [SinaSpider][1] - 基于scrapy和redis的分布式微博爬虫。SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。爬虫框架使用Scrapy，使用scrapy_redis和Redis实现分布式。此项目实现将单机的新浪微博爬虫重构成分布式爬虫。 ? - [sina_reptile][2] -这是一个关于sina微博的爬虫，采用python开发，并修改了其sdk中的bug，采用mongodb存储，实现了多进程爬取任务。 - [sina_weibo_crawler][3]-基于urlib2及beautifulSoup实现的微博爬虫系统。 - [sina-weibo-crawler][4]-方便扩展的新浪微博爬虫。
1.5K80发布于 2018-01-31
来自专栏萌海无涯
基于selenium写微博爬虫（待续）
sudaref=security.weibo.com': print("登录成功") 手机微博，是往下滑动翻页，我们用js代码来实现 # 翻页操作js="var q=document.documentElement.scrollTop
86830发布于 2019-08-03
来自专栏月小水长
微博爬虫综述、错误汇总、Q&A
微博爬虫综述微博爬虫 Github 地址是 https://github.com/Python3Spiders/WeiboSuperSpider ，请不要利用该爬虫项目获得的数据作任何违法用途。微博爬虫主要有两个导向，一个是微博内容的爬虫，其目的字段包括微博文本、发布者、转发/评论/点赞数等，另一个是微博评论的爬虫，其目的字段主要是评论文本和评论者。无论是微博用户，还是话题爬虫，都有 50 页左右的限制。爬取了微博之后，我们可以使用 WeiboCommentScrapy.py 爬取指定微博的评论，怎么指定，参考下图 ? 注意 weibo.cn 站微博的 id 是类似 IjEDU1q3w 这种格式，和后面的 m.weibo.cn 的微博 id 格式不同（它的纯数字，比较长），该评论爬虫只能爬取前 100 页的。微博用户/话题/评论爬虫的数据依次保存在 user/topic/comment 文件夹下的 csv 文件中。
1.6K30发布于 2020-03-19
来自专栏机器学习AI算法工程
微博python爬虫，每日百万级数据
当然例子还有很多，那么，首先，要有微博数据！所以，就产生了众多的微博爬虫项目。后来，新浪微博也开放了微博的API接口，但是官方的东西，限制还是很多的。我整理的在这里：User-Agent池本文源码地址：关注微信公众号datayx 然后回复“微博”即可获取。充足的微博账号微博爬虫，必须登录以后，才能抓取。这时候，就需要一个勤劳的爬虫，24小时不间断的爬数据！所以当然是需要部署在服务器上！爬虫策略登录微博登录一直是一个很复杂的问题，不过，我们可以通过selenium来简化这个问题。这样就可以形成以种子用户为核心，逐层向外扩散的爬虫辐射。理论上，只要一小批种子用户启动，就可以爬取全网的微博！运行爬虫克隆代码到服务器中，安装依赖，并执行 nohup python run.py 就已经开始不停的爬取微博了！通过命令：tail -10 weibo.log 查看最新的日志。 ?
1.5K10发布于 2019-10-28
来自专栏Python中文社区
Python爬虫之微博评论爬取
專欄 ❈ 罗罗攀，Python中文社区专栏作者专栏地址： http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟微博登录需要爬取登录之后的信息，大家都是望而止步，不要担心，今天呢，给大家提供一个超级简单的方法，就是提交Cookie信息登录微博，首先，我们找到某明星的微博网址：http://m.weibo.cn/u/1732927460 这里是登录的移动端，你会发现，你点击网址会自动跳转到登录微博的界面（没有跳转的注销掉自己的账号），如下图所示： ? 然后登录自己的账号密码，这时记得打开Fiddler进行抓包，如图所示，提取Cookie做为请求某明星微博网址的请求头即可。 ? 异步加载数据如何爬取我在网上看过移动端的微博数据很好爬，没有异步加载，可是不知道为什么，我的评论数据就是异步加载的，其实异步加载不可怕，找到相应js包即可，如下图为某明星的一条微博和评论的js包。
1.4K60发布于 2018-02-01

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

微博爬虫

python 新浪微博爬虫

微博位置爬虫发布

新浪微博小爬虫

【爬虫】新浪微博爬虫——环境部署

Java网络爬虫抓取新浪微博个人微博记录

微博爬虫，python微博用户主页小姐姐图片内容采集爬虫

Python爬虫抓取微博评论

python模拟新浪微博登陆功能(新浪微博爬虫)

Python微博移动端爬虫实例

Python微博移动端爬虫实例

python爬虫抓取新浪微博数据

微博全站爬虫修复更新啦！！！

微博超话爬虫，它来了

免 cookie 微博话题爬虫发布

微博爬虫开源项目汇总大全

基于selenium写微博爬虫（待续）

微博爬虫综述、错误汇总、Q&A

微博python爬虫，每日百万级数据

Python爬虫之微博评论爬取

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

微博爬虫

python 新浪微博爬虫

微博位置爬虫发布

新浪微博小爬虫

【爬虫】新浪微博爬虫——环境部署

Java网络爬虫抓取新浪微博个人微博记录

微博爬虫，python微博用户主页小姐姐图片内容采集爬虫

Python爬虫 抓取微博评论

python模拟新浪微博登陆功能(新浪微博爬虫)

Python微博移动端爬虫实例

Python微博移动端爬虫实例

python爬虫抓取新浪微博数据

微博全站爬虫修复更新啦！！！

微博超话爬虫，它来了

免 cookie 微博话题爬虫发布

微博爬虫开源项目汇总大全

基于selenium写微博爬虫（待续）

微博爬虫综述、错误汇总、Q&A

微博python爬虫，每日百万级数据

Python爬虫之微博评论爬取

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python爬虫抓取微博评论