搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏数据爬取
马蜂窝评论信息爬虫，不受网站最多加载5页的限制
有小伙伴反映，马蜂窝网站的景点点评，无论有多少数量，都只给加载5页内容，写个论文想采集来做分析，发现无法采集全。点评数量就没有办法了吗？当然有了，这不，我们在网站搜索发现这个小工具：马蜂窝评论采集助手，网站介绍说显示的点评多少，就可以采集多少，是不是有点厉害？！那么是真的可以爬取更多页吗？我们来试试。小工具运行截图 马蜂窝评论采集后导出的表格实测的确是可以爬取更多页数，但因为时间的原因，我们没有爬取到最后，不过，看页面的说明，因为不是走pc端的页面，而是小程序端的接口。文章来源： 马蜂窝评论采集助手-评论信息一键采集小工具，不受网站最多加载5页的限制 – 富泰科 (futaike.net)
1.9K00编辑于 2022-04-10
来自专栏IT 茂茂
Python爬虫抓取微博评论
'following'],d['followed'],d['gender']]) time.sleep(3) except: print(res.text) id_type += 1 print('评论总数首先找到你想爬的微博，这里以微博故事为例，在浏览器内按下F12，并且点击评论按钮点击‘网络’，找到一条像图中的get请求。 'following'],d['followed'],d['gender']]) time.sleep(3) except: print(res.text) id_type += 1 print('评论总数
2.1K20编辑于 2022-05-11
来自专栏小红书采集软件
【爬虫软件】小红书评论区批量采集，含二级评论
毋庸置疑，小红书是国内流量数一数二的社区种草平台，拥有海量用户和上亿日活，尤其笔记下方的评论区有重大挖掘价值。采集小红书评论数据可以帮助客户了解消费者对商品和品牌的评价和反馈，从而更好地洞悉消费者的喜好、需求和购买意向。通过分析用户评论数据，企业可以及时发现和处理消费者的负面评价和投诉，提升品牌口碑和信誉度。因此，我用python开发了一个爬虫采集软件，可自动抓取小红书评论数据，并且含二级评论数据。为什么有了源码还开发界面软件呢？效果截图软件界面截图：部分爬取数据：演示视频软件运行演示：【软件演示】小红书评论采集工具，可爬取上万条，含二级评论！软件说明几点重要说明：二、代码模块介绍爬虫采集模块通过把已有代码部分封装成class类，供tkinter界面调用。详细爬虫实现逻辑，请见历史文章。
3.1K30编辑于 2024-07-08
来自专栏猫哥学前班
有组织的捅马蜂窝违法了吗
今天的朋友圈被《我承认，我们是有组织攻击马蜂窝的》刷屏了。自媒体「小声比比」作者梓泉和「乎睿数据」的三名技术人员组成的「四人豪华犯罪团伙」，通过爬虫技术结合大数据分析，披露马蜂窝 2100 万条用户评论数据中的 1800 万条为造假数据，被马蜂窝以名誉权纠纷为由状告法院，涉嫌造假的 1000 多万条数据分分钟就清完了（给马蜂窝未雨绸缪的技术架构点个赞）。 马蜂窝估计也考虑到这个问题了，今天下午 5 点 38 分 42 秒（Last-Modified: Tue, 23 Oct 2018 09:38:42 GMT）更新了站点的 robots.txt 协议，将原来未做限制的爬虫不知马蜂窝大佬接下来将如何应对？我相信，借助技术和法律的力量，小个体总有扳倒大集团的那一天。
1.3K50发布于 2018-11-06
来自专栏全栈程序员必看
python爬虫–爬取网易云音乐评论
python爬虫–爬取网易云音乐评论方1：使用selenium模块，简单粗暴。但是虽然方便但是缺点也是很明显，运行慢等等等。方2：常规思路：直接去请求服务器 1.简易看出评论是动态加载的，一定是ajax方式。 2.通过网络抓包，可以找出评论请求的的URL image.png 得到请求的URL image.png 3.去查看post请求所上传的数据 image.png 显然是经过加密的， f定死，能产生变数的只能是i h }''' if __name__ == '__main__': page = int(input('请输入需要爬取的页数：')) print('开始爬虫效果图 image.png 感想通过这次爬虫实验，在爬取的过程中，遇到各种困难，收货很多。掌握遇到加密，该如何处理的步骤，以及拓宽自己的思路，去运用各种工具。以及各种自己想不到的思路。
1.3K30发布于 2021-04-21
来自专栏云飞学编程
Python爬虫，抓取淘宝商品评论内容
作为一个资深吃货，网购各种零食是很频繁的，但是能否在浩瀚的商品库中找到合适的东西，就只能参考评论了！今天给大家分享用python做个抓取淘宝商品评论的小爬虫！ ? 这里面是一大串包含我们需要的内容在内的源代码，如果大家有兴趣可以提取内容做成json数据，而我们这里只需要评论数据，所以，用正则匹配评论部分就可以了！作为一个爬虫爱好者，必然要加深抓取的广度的，试着将整个页面的店铺ID抓取出来！这次简单，直接抓到json数据，然后用正则匹配，放回列表，因为时间有限，没有研究出url翻页的依据，就只抓取了一页！ ? emmm，看评论是可以入手的！哈哈！ ? 最后想说几点，一个是自己写个小爬虫玩玩可以，做分析也行，但是务必切记不要外传扩散，很容易进坑！二是淘宝的反爬其实也不是很难，比如上面的爬虫，并没有做反爬措施，大家可以拿这个来练练手，记得加入sleep就可以，不要给对方服务器造成压力为最好！代码写的不好，各路高手请见谅!
1.8K40发布于 2018-09-14
来自专栏Python中文社区
Python爬虫之微博评论爬取
异步加载数据如何爬取我在网上看过移动端的微博数据很好爬，没有异步加载，可是不知道为什么，我的评论数据就是异步加载的，其实异步加载不可怕，找到相应js包即可，如下图为某明星的一条微博和评论的js包。我们只需请求这个js数据，然后利用json库即可提取我们所需的评论数据。 ? ? 代码 ? 爬取的数据导入数据库后又导出为csv格式进行分析词云制作及分析 ? 可以说支持的评论更多一些：例如爱你，喜欢，坚强等等；不过也有不少的恶意评论：黑，恶心，讨厌等。
1.4K60发布于 2018-02-01
来自专栏JAVAandPython君
Python爬虫| 实战爬取腾讯视频评论
本次爬取使用的浏览器是谷歌浏览器二、分析思路 1、分析评论页面 ? 根据上图，我们可以知道：评论使用了Ajax异步刷新技术。这样就不能使用以前分析当前页面找出规律的手段了。因为展示的页面只有部分评论，还有大量的评论没有被刷新出来。这时，我们应该想到使用抓包来分析评论页面刷新的规律。以后大部分爬虫，都会先使用抓包技术，分析出规律！ 2、使用Fiddler进行抓包分析——得出评论网址规律 fiddler如何抓包，这个知识点，需要读者自行去学习，不在本博客讨论范围。 ? ? 把上面两张图里面的内容对比一下，可以知道这个JS就是评论存放页面。至此，我们发现了评论的url之间的规律： _=？从1576567187273加1 cursor=？的值存在上面一个JS中。
2.5K01发布于 2019-12-25
来自专栏云+分享
Python爬虫 | 如何获取网易云音乐评论
今天看了知乎上的一个问答，关于如何爬取网易云音乐的评论关于如何爬网易云音乐的评论我发现，第一位大佬写的方法，嗯，确实看不懂（虽然不妨碍白嫖），然后我自己试了试，params和encSecKey直接F12 else: print("保存热门评论成功！") else: print("保存全部评论成功！") ，但是只有第一页的评论之后又看了第二个的评论，发现有没有加密的api ，于是在尝试了多个各种评论后发现： API #单曲{id}{limit}{offset} url_so="http://music limit={}&offset={}" 这些url对应都是评论，limit是一页的数量，offset就是偏移量=（评论页数-1） * limit 如何爬网易云音乐的评论数？
1.5K10编辑于 2021-12-14
来自专栏Python中文社区
雪球网沪深全站股票评论爬虫
專欄 ❈ 蜗牛仔，Python中文社区专栏作者，怒学Python爬虫，争当爬虫工程师， github地址： https://github.com/xiaobeibei26 ❈ 这个爬虫写得好累，就简单讲一下思路吧每个进程需要知道那些股票评论爬取过了、哪些股票需要爬取！这里5000来只股票，接下来看看股票评论的ajax请求 ? 随便点开一只股票，然后点击里面的讨论就会触发该请求，评论时个json数据，解析之后直接提取就好了，这里简单说说URL里面的参数,如图 ? 这里count很好理解，是每页的评论数，访问的时候要加上，hl：0、source：user和comment：0这三个参数是一直不变的，加上就好，symbol是股票代码，访问时候必须要加上，page是评论的页数
4.1K60发布于 2018-01-31
来自专栏机器学习AI算法工程
京东商品和评论的分布式爬虫
爬取京东商品和评论的分布式爬虫来进行数据分析。完整代码下载地址： 1、转发本文至朋友圈 2、关注微信公众号 datayx 然后回复京东即可获取。还有一点就是，即使某样商品有 10+w 条评论，最多也只是返回 100 页的数据。略坑反爬虫策略商品的爬取策略以及提取策略都确定了，一只爬虫就基本成型了。爬虫拆分本来爬取商品信息的爬虫和爬取评论的爬虫都是同一只爬虫，但是后来发现，再不使用代理 IP 的情况下，爬取到 150000 条商品信息的时候，需要输入验证码。但是爬取商品评论的爬虫并不存在被反爬策略限制的情况。所以我将爬虫拆分成两只爬虫，即使无法爬取商品信息的时候，还可以爬取商品的评论信息。小结在爬取一天之后，爬虫成果：评论 ? 评论总结 ? 商品信息商品信息加上评论数约 150+w. ?
1.7K10发布于 2019-10-28
来自专栏python3
python3爬虫-下载网易云音乐，评论
参数一获取歌曲下载地址 "{"ids":"[1361348080]","level":"standard","encodeType":"aac","csrf_token":""}" 获取歌曲评论信息歌曲的下载地址为>>:", response.json()["data"][0]["url"]) def song_comment(self, songId): '''获取到歌曲评论信息，我只是将结果print出来，如果保存的话，可以单独写一个保存的方法''' print("开始爬取歌曲评论信息 self.session.post(url=api, headers=headers, data=formdata) # print("*"*100) # print("第{}页评论 try: print("用户: {}".format(dic["user"]["nickname"])) print("评论内容
1.1K20发布于 2020-01-16
来自专栏数据爬取
微博爬虫 | 微博评论爬取下载，同步获取一二级评论
今天给大家分享一款简单到有点简陋的微博评论专门的爬取下载小工具。很多同学写论文、自媒创作想要从微博上去爬取一些素材，总是感到力不从心，有了这款小工具，相信以后就再也不用发愁了。所以这个登录信息必须要提前做，不然将只能查看一页也就是只能采集到一页的评论内容。导出的文件发现一级及二级评论均已经在表格当中了，字段包括评论数，点赞数，评论内容、评论用户、时间等。数据导出的表格而且表格还将对应二级评论的上一级进行了前后对应，省去了我们用其他采集器时，采集是分开的，还需要自己动手整理的麻烦，很是贴心。这个功能对应需要大量评论文本采集的同学来说，可以说是极为方便了。有兴趣的同学可以进一步了解。打包好的下载地址：点这里
2.1K50编辑于 2022-11-14
来自专栏Python中文社区
网易云音乐歌曲评论爬虫（附源码）
♚ 作者：志颖，一个狂热的python爬虫热爱者 GitHub：github.com/zyingzhou 用过网易云音乐听歌的朋友都知道，网易云音乐每首歌曲后面都有很多评论，热门歌曲的评论更是接近百万或者是超过百万条．现在我就来分享一下如何爬取网易云音乐歌曲的全部评论，由于网易云音乐的评论都做了混淆加密处理，因此我们需要深入了解它的加密过程之后才能爬取到网易云音乐歌曲的全部评论．发现我们所需要的数据就在这json格式的数据中,其中comments中是第一页的全部评论,一共20条,hotcomments是精彩评论一共有15条,每首歌曲只有第一页评论才有精彩评论.接着看一下它的请求头这些数据都是经过加密处理的,因此我们需要分析它的加密过程来生成相应的参数,然后把加密后的参数加到post请求中才能获取到我们需要的评论数据. ) 至此,获取网易云音乐全部评论的Python爬虫实现原理分析全部完成！
2.3K21发布于 2018-10-25
来自专栏全栈程序员必看
Python动态爬虫爬取京东商品评论
Python 动态爬虫爬取京东商品评论 1. 概述京东商城是Python爬虫初学者试手的经典平台，反爬虫程度较低，但评论采取了动态加载的方式，爬取京东商品评论是学习动态爬虫的一个极佳方法。动态爬虫，即针对动态加载JSON文件网页的爬虫，其原理与静态爬虫没有本质区别，只是不爬取所见的静态目标网页，而是寻找该网页所加载的JSON文件，爬取JSON文件中的内容。 2.目标观察观察京东具体商品评论页面：发现可能是评论内容文件，点击查看，发现确实如此，复制下该文件的url： 3. 具体爬取从上文中我们获取到了商品评论的动态加载文件的url，接下来我们至需要对该文件进行get爬取即可。同静态爬虫类似，构造header，输入网址，并使用get进行请求，下载其文本内容。 jbs["comments"] for comment in comments: print(comment["id"],":",comment["content"]) 从而我们就得到了京东商品评论
3.3K30编辑于 2022-09-17
来自专栏FSociety
Python爬虫爬取网易云音乐全部评论
beautiful now.png 思路整理访问网易云音乐单曲播放界面，我们可以看到当我们翻页的时候网址是没有变化的，这时候我们大致可以确定评论是通过post形式加载的； . 2.接下来就打开控制台找我们要的评论藏在哪里就好了。 csrf_token=发现了我们要的评论，包括热门评论，我们注意看下R_SO_4_后面的数字，其实就是每首歌的id，如果我们想一次性爬取多首歌曲的评论的话，可以通过每次传入歌曲id来实现; image.png 获取页码数是为了加入循环获取每页的评论，代码如下； def get_json(url, params, encSecKey): data = { "params": params Notes 各位爬的时候一定要使用代理IP，我后面准备爬周董最近的新歌<等你下课>的评论的，爬到5000多页也就是差不多10W条的时候，被封IP了，导致我们整个公司的网络都一段时间内不能访问网易云音乐的评论
1.7K51发布于 2018-09-11
来自专栏月小水长
B 站弹幕、评论爬虫工具开放下载
点击上方月小水长并设为星标，第一时间接收干货推送这是月小水长的第 58 篇原创干货在上一篇 B 站爬虫【爬取了 S10 SN vs DWG 总决赛视频的 10 w 条弹幕和评论】中简要分析了B站 S10 总决赛视频弹幕及评论的一些东西，本次分享将使用的 B 站弹幕及评论打包成工具供大家免费使用。评论抓取工具双击 comment.exe 输入 BV1Qb411q7Xu 并回车最后会在和 comment.exe 同级的目录下的 comment文件夹中，生成《白蛇：缘起》无对白版片尾曲《前世今生》完整版4分06秒演唱：龚笑笑.csv 保存的 csv 就是评论内容如下图 ? 如何免费下载关注本公众号（月小水长）后台回复，B站弹幕/B站评论任意之一即可点击下一篇快速阅读 B站爬虫系列文章
2.4K21发布于 2020-11-19
来自专栏月小水长
微博爬虫重要更新：根据话题爬虫的结果批量化爬评论
在公众号以前的一篇文章微博爬虫综述、错误汇总、Q&A 中，阐述了微博爬虫的不同目标站点之间的差异，并明确了我的微博爬虫的站点策略。在 weibo.cn 站点爬取指定话题的微博，爬虫文件名是 WeiboTopicScrapy.py 。在 m.weibo.cn 站点指定微博的评论，爬虫文件名是 WeiboSuperCommentScrapy.py。在这两个站点，就算是同一个用户的同一条微博，其唯一标识也不一样，话题爬虫微博的是诸如 Is0XboARR 这样的形式，看上去是不规则的字符串，通常长度为 9，称之为微博的 mid，而后者是 4467107636950632 其实很简单，假如评论有 100 页，组装参数 101 页爬取后都是重复的评论，爬到重复的就应该停止了，所以每次爬取一条微博的所有评论时，如果列表中不存在评论的唯一标识 wid，就将 wid 追加保存到列表中
1.5K10发布于 2020-05-26
来自专栏月小水长
Python 源代码 | 2024 版抖音评论采集爬虫
当时的重点只是讲 hook 这种方法，并不是采集抖音评论，有点为了这瓶醋包了这碗饺子的意思在里面。而且收到不少反馈说配置麻烦，于是就有了今天这期使用纯 Python 采集抖音评论，配置相对简单。 3、点开视频评论区，在 Network 栏下找到请求 web/comment/list/，点击，复制请求的 Headers(Cookie) 和 Payload(Params)。，几乎只需要在参数字典中新增comment_id 为根评论 id，就可以采集根评论的回复了，其请求翻页逻辑完全可以复用根评论请求，保存逻辑亦然。实测单条视频最多可以采集到几千-上万评论，10w+ 尚未测试，最后解析保存的字段有评论 id、回复的根评论 id（为 0 表示本身是根评论）、回复的二级评论 id（为 0 表示本身是根评论）、评论内容、评论时间、ip 属地、点赞数、回复数、评论用户名等等十余个字段，结果 csv 如下图所示：
7.2K12编辑于 2024-01-12
来自专栏快手采集软件
【爬虫软件】用python开发的快手评论批量采集工具：含二级评论
我开发了一款基于Python的快手评论采集软件，该软件能够自动抓取快手视频的评论数据，包括二级评论和展开评论。数据丰富：可爬取包括目标链接、页码、评论者昵称、评论者ID、评论者主页链接、评论时间、评论点赞数、评论级别和评论内容在内的9个关键字段。二、代码讲解 2.1 爬虫采集模块定义请求地址和请求头请求地址（URL）是快手的GraphQL API。请求头（headers）用于伪造浏览器访问，确保请求被正常处理。按钮：设置开始采集按钮，用户点击后触发爬虫采集模块的运行。日志显示：实时显示采集过程中的日志信息，方便用户了解采集进度和可能的问题。二级评论及二级展开评论采集：根据API返回的数据结构，递归地采集二级评论及二级展开评论。
2K10编辑于 2025-05-16

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

马蜂窝评论信息爬虫，不受网站最多加载5页的限制

Python爬虫抓取微博评论

【爬虫软件】小红书评论区批量采集，含二级评论

有组织的捅马蜂窝违法了吗

python爬虫–爬取网易云音乐评论

Python爬虫，抓取淘宝商品评论内容

Python爬虫之微博评论爬取

Python爬虫| 实战爬取腾讯视频评论

Python爬虫 | 如何获取网易云音乐评论

雪球网沪深全站股票评论爬虫

京东商品和评论的分布式爬虫

python3爬虫-下载网易云音乐，评论

微博爬虫 | 微博评论爬取下载，同步获取一二级评论

网易云音乐歌曲评论爬虫（附源码）

Python动态爬虫爬取京东商品评论

Python爬虫爬取网易云音乐全部评论

B 站弹幕、评论爬虫工具开放下载

微博爬虫重要更新：根据话题爬虫的结果批量化爬评论

Python 源代码 | 2024 版抖音评论采集爬虫

【爬虫软件】用python开发的快手评论批量采集工具：含二级评论

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

马蜂窝评论信息爬虫，不受网站最多加载5页的限制

Python爬虫 抓取微博评论

【爬虫软件】小红书评论区批量采集，含二级评论

有组织的捅马蜂窝违法了吗

python爬虫–爬取网易云音乐评论

Python爬虫，抓取淘宝商品评论内容

Python爬虫之微博评论爬取

Python爬虫| 实战爬取腾讯视频评论

Python爬虫 | 如何获取网易云音乐评论

雪球网沪深全站股票评论爬虫

京东商品和评论的分布式爬虫

python3爬虫-下载网易云音乐，评论

微博爬虫 | 微博评论爬取下载，同步获取一二级评论

网易云音乐歌曲评论爬虫（附源码）

Python动态爬虫爬取京东商品评论

Python爬虫爬取网易云音乐全部评论

B 站弹幕、评论爬虫工具开放下载

微博爬虫重要更新：根据话题爬虫的结果批量化爬评论

Python 源代码 | 2024 版抖音评论采集爬虫

【爬虫软件】用python开发的快手评论批量采集工具：含二级评论

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python爬虫抓取微博评论