搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏数据爬取
马蜂窝评论信息爬虫，不受网站最多加载5页的限制
有小伙伴反映，马蜂窝网站的景点点评，无论有多少数量，都只给加载5页内容，写个论文想采集来做分析，发现无法采集全。点评数量就没有办法了吗？当然有了，这不，我们在网站搜索发现这个小工具：马蜂窝评论采集助手，网站介绍说显示的点评多少，就可以采集多少，是不是有点厉害？！那么是真的可以爬取更多页吗？我们来试试。小工具运行截图 马蜂窝评论采集后导出的表格实测的确是可以爬取更多页数，但因为时间的原因，我们没有爬取到最后，不过，看页面的说明，因为不是走pc端的页面，而是小程序端的接口。文章来源： 马蜂窝评论采集助手-评论信息一键采集小工具，不受网站最多加载5页的限制 – 富泰科 (futaike.net)
1.9K00编辑于 2022-04-10
来自专栏CSDN技术头条
实战 Python 网络爬虫：美团美食商家信息和用户评论
数据爬取分为两部分：商家信息和顾客评论，如图所示： ? 接着是分析顾客评论所在的请求信息，最终在 XHR 标签下找到相关的请求信息，如图所示： ? 综合上述，我们需要从三个请求信息里获取数据，三个请求信息的说明如下：美团美食的首页地址，获取每个商家的 id 商家详细页地址，获取商家信息顾客评论的 AJAX 接口，获取顾客评论信息目前只是简单分析了三个请求信息，如广州（gz）或北京（bj）等，从而控制爬虫的爬取方向 meishi.py 实现爬虫功能二、爬取所有商家信息简单分析网页后，接下来我们先实现所有商家的信息爬取。将商家信息和顾客评论信息分别存储在数据表 meituan_shop 和 meituan_comment。数据表之间存在一对多的数据关系，一个商家会有多条顾客评论，映射类的定义如下： ?
5.3K30发布于 2018-12-29
来自专栏博文视点Broadview
信息安全——指纹将成为未来信息安全的马蜂窝
可以毫不夸张地说，指纹安全是个马蜂窝，一旦出现漏洞，后果将会“人被蛰、蜂也亡”。德国国防部长乌尔苏拉•范德莱恩的这张照片便暴露了一个非常重要的个人信息——指纹 2014年9月，据《德国之声》网站报道，一名叫扬•克里斯勒（Jan Krissler）的黑客已根据该照片成功复制了乌尔苏拉目前，指纹的应用还不太普及，所引发的危险也没有爆发，但未来指纹会有越来越多的应用，指纹安全的马蜂窝也迟早会被捅。所以，未雨绸缪，保护好自己的指纹刻不容缓。 ————本文节选自《你的个人信息安全吗（第2版）》
62520发布于 2020-06-11
来自专栏空空裤兜
自动填写评论者信息
'http://www.iceray.net'; void(0) 使用方法很简单，复制上面的代码，修改其中的网名、邮箱、网址为你自己的，在浏览器上新建一个书签，粘贴到网址部分，作用也很简单，逛博客需要评论时，点一下这个书签就自动填好你的信息，省事。
96420编辑于 2023-03-03
来自专栏IT 茂茂
Python爬虫抓取微博评论
message.encode("utf-8") passwd = rsa.encrypt(message, key) # 加密 passwd = binascii.b2a_hex(passwd) # 将加密信息转换为 'following'],d['followed'],d['gender']]) time.sleep(3) except: print(res.text) id_type += 1 print('评论总数首先找到你想爬的微博，这里以微博故事为例，在浏览器内按下F12，并且点击评论按钮点击‘网络’，找到一条像图中的get请求。 message.encode("utf-8") passwd = rsa.encrypt(message, key) # 加密 passwd = binascii.b2a_hex(passwd) # 将加密信息转换为 'following'],d['followed'],d['gender']]) time.sleep(3) except: print(res.text) id_type += 1 print('评论总数
2.1K20编辑于 2022-05-11
来自专栏猫哥学前班
有组织的捅马蜂窝违法了吗
今天的朋友圈被《我承认，我们是有组织攻击马蜂窝的》刷屏了。自媒体「小声比比」作者梓泉和「乎睿数据」的三名技术人员组成的「四人豪华犯罪团伙」，通过爬虫技术结合大数据分析，披露马蜂窝 2100 万条用户评论数据中的 1800 万条为造假数据，被马蜂窝以名誉权纠纷为由状告法院二、证据保全公证文章还提到，马蜂窝清理脏数据的效率十分迅猛，涉嫌造假的 1000 多万条数据分分钟就清完了（给马蜂窝未雨绸缪的技术架构点个赞）。 马蜂窝估计也考虑到这个问题了，今天下午 5 点 38 分 42 秒（Last-Modified: Tue, 23 Oct 2018 09:38:42 GMT）更新了站点的 robots.txt 协议，将原来未做限制的爬虫非法获取计算机信息系统数据罪爬虫如果采用类似黑客暴力破解手段获取数据，或因此导致对方站点服务不可用，可能触犯「非法获取计算机信息系统数据罪」。
1.3K50发布于 2018-11-06
来自专栏HHTjim'S 部落格
快速填写博客评论框信息
快速填写博客评论框信息作者：matrix 被围观: 7,405 次发布时间：2014-01-11 分类：Wordpress 零零星星 | 7 条评论 » 这是一个创建于 3155 天前的主题，其中的信息可能已经有所发展或是发生改变。 rotate(6deg);-webkit-box-shadow:0 10px 8px rgba(0,0,0,.6);box-shadow:0 10px 8px rgba(0,0,0,.6)} --> 快速填写评论框信息由于代码太长，所以方便到emblog、WordPress、typecho、多说、灯鹭、有言都可以一键填写信息。不知道代码源自哪里了，到处都飞。只是我这更加强了些。 Hootrix/fast-type-comment-info-javascript/blob/master/type-comment-info.js 参考：快速在WordPress填写名称、EMAIL等信息
91930编辑于 2022-09-26
来自专栏小红书采集软件
【爬虫软件】小红书评论区批量采集，含二级评论
因此，我用python开发了一个爬虫采集软件，可自动抓取小红书评论数据，并且含二级评论数据。为什么有了源码还开发界面软件呢？效果截图软件界面截图：部分爬取数据：演示视频软件运行演示：【软件演示】小红书评论采集工具，可爬取上万条，含二级评论！软件说明几点重要说明：二、代码模块介绍爬虫采集模块通过把已有代码部分封装成class类，供tkinter界面调用。详细爬虫实现逻辑，请见历史文章。 ='#ffffff', width=110, height=2, )entry_ck.place(x=30, y=100, anchor='nw') # 摆放位置底部软件版权说明，免责声明：# 版权信息日志模块日志文件是记录系统、应用程序或服务运行过程中所产生的事件、错误、警告等信息的文件。一个好的日志模块，有助于软件运行出问题后快速定位原因，以及追溯运行历史记录。
3.1K30编辑于 2024-07-08
来自专栏python3
深圳租房信息爬虫
考虑到以后可能会在深圳工作，所以写了这个爬虫，希望对自己的找房过程提供一些便捷。信息来源是豆瓣的深圳租房小组（想爬取其他城市只需要更换一下URL就好）。
1.4K20发布于 2020-01-19
Typecho——为评论增加地址信息展示
前言想针对EasyBe主题的评论，增加对应的IP地址信息展示；内容 ? CURLOPT_RETURNTRANSFER, 1); $res = curl_exec($ch); curl_close($ch); return $res; } 前端调用在评论内容页
22110编辑于 2024-08-16
来自专栏网页杂谈
一键填写评论人信息
莫失莫忘大家做网站就避免不了站长间的相互交流和互动，互动评论留言就需要填写个人信息如昵称、邮箱和网站域名等相关信息，虽然我们都已经记得很熟悉了，但输入起来还是需要点时间，特别是还有小部分网站没有信息记忆功能，多条评论就需要重复输入，如此甚是麻烦。以后去其它网站评论留言需要填写信息时点击一下这个书签即可。 Lvtu在Chrome和Safari浏览下亲测Wordpress和Typecho及emlog程序有效，有个别网站邮箱表单失效，原因不明。这样的话评论留言时就会节约很多时间，从此你就可以愉快地评论留言了。方法来源：https://www.dujin.org/14177.html
81530编辑于 2022-11-11
来自专栏全栈程序员必看
python爬虫–爬取网易云音乐评论
python爬虫–爬取网易云音乐评论方1：使用selenium模块，简单粗暴。但是虽然方便但是缺点也是很明显，运行慢等等等。方2：常规思路：直接去请求服务器 1.简易看出评论是动态加载的，一定是ajax方式。 2.通过网络抓包，可以找出评论请求的的URL image.png 得到请求的URL image.png 3.去查看post请求所上传的数据 image.png 显然是经过加密的， f定死，能产生变数的只能是i h }''' if __name__ == '__main__': page = int(input('请输入需要爬取的页数：')) print('开始爬虫效果图 image.png 感想通过这次爬虫实验，在爬取的过程中，遇到各种困难，收货很多。掌握遇到加密，该如何处理的步骤，以及拓宽自己的思路，去运用各种工具。以及各种自己想不到的思路。
1.3K30发布于 2021-04-21
来自专栏云飞学编程
Python爬虫，抓取淘宝商品评论内容
作为一个资深吃货，网购各种零食是很频繁的，但是能否在浩瀚的商品库中找到合适的东西，就只能参考评论了！今天给大家分享用python做个抓取淘宝商品评论的小爬虫！ ? 这里面是一大串包含我们需要的内容在内的源代码，如果大家有兴趣可以提取内容做成json数据，而我们这里只需要评论数据，所以，用正则匹配评论部分就可以了！作为一个爬虫爱好者，必然要加深抓取的广度的，试着将整个页面的店铺ID抓取出来！这次简单，直接抓到json数据，然后用正则匹配，放回列表，因为时间有限，没有研究出url翻页的依据，就只抓取了一页！ ? emmm，看评论是可以入手的！哈哈！ ? 最后想说几点，一个是自己写个小爬虫玩玩可以，做分析也行，但是务必切记不要外传扩散，很容易进坑！二是淘宝的反爬其实也不是很难，比如上面的爬虫，并没有做反爬措施，大家可以拿这个来练练手，记得加入sleep就可以，不要给对方服务器造成压力为最好！代码写的不好，各路高手请见谅!
1.8K40发布于 2018-09-14
来自专栏Python中文社区
Python爬虫之微博评论爬取
專欄 ❈ 罗罗攀，Python中文社区专栏作者专栏地址： http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟微博登录需要爬取登录之后的信息，大家都是望而止步，不要担心，今天呢，给大家提供一个超级简单的方法，就是提交Cookie信息登录微博，首先，我们找到某明星的微博网址：http://m.weibo.cn/u/1732927460 这里是登录的移动端异步加载数据如何爬取我在网上看过移动端的微博数据很好爬，没有异步加载，可是不知道为什么，我的评论数据就是异步加载的，其实异步加载不可怕，找到相应js包即可，如下图为某明星的一条微博和评论的js包。可以说支持的评论更多一些：例如爱你，喜欢，坚强等等；不过也有不少的恶意评论：黑，恶心，讨厌等。总结 1、Cookie提交是一个简单不错的选择，但Cookie信息隐藏着隐私，大家千万别暴露在外面，以防外人所利用。 2、异步加载不可怕，找包有技巧，有id，vid等字段的嫌疑最大，多练习就行。
1.4K60发布于 2018-02-01
来自专栏JAVAandPython君
Python爬虫| 实战爬取腾讯视频评论
本次爬取使用的浏览器是谷歌浏览器二、分析思路 1、分析评论页面 ? 根据上图，我们可以知道：评论使用了Ajax异步刷新技术。这样就不能使用以前分析当前页面找出规律的手段了。因为展示的页面只有部分评论，还有大量的评论没有被刷新出来。这时，我们应该想到使用抓包来分析评论页面刷新的规律。以后大部分爬虫，都会先使用抓包技术，分析出规律！ 2、使用Fiddler进行抓包分析——得出评论网址规律 fiddler如何抓包，这个知识点，需要读者自行去学习，不在本博客讨论范围。 ? ? 把上面两张图里面的内容对比一下，可以知道这个JS就是评论存放页面。至此，我们发现了评论的url之间的规律： _=？从1576567187273加1 cursor=？的值存在上面一个JS中。
2.5K01发布于 2019-12-25
来自专栏云+分享
Python爬虫 | 如何获取网易云音乐评论
今天看了知乎上的一个问答，关于如何爬取网易云音乐的评论关于如何爬网易云音乐的评论我发现，第一位大佬写的方法，嗯，确实看不懂（虽然不妨碍白嫖），然后我自己试了试，params和encSecKey直接F12 else: print("保存热门评论成功！") else: print("保存全部评论成功！") ，但是只有第一页的评论之后又看了第二个的评论，发现有没有加密的api ，于是在尝试了多个各种评论后发现： API #单曲{id}{limit}{offset} url_so="http://music limit={}&offset={}" 这些url对应都是评论，limit是一页的数量，offset就是偏移量=（评论页数-1） * limit 如何爬网易云音乐的评论数？
1.5K10编辑于 2021-12-14
来自专栏Python中文社区
雪球网沪深全站股票评论爬虫
專欄 ❈ 蜗牛仔，Python中文社区专栏作者，怒学Python爬虫，争当爬虫工程师， github地址： https://github.com/xiaobeibei26 ❈ 这个爬虫写得好累，就简单讲一下思路吧每个进程需要知道那些股票评论爬取过了、哪些股票需要爬取！这里5000来只股票，接下来看看股票评论的ajax请求 ? 随便点开一只股票，然后点击里面的讨论就会触发该请求，评论时个json数据，解析之后直接提取就好了，这里简单说说URL里面的参数,如图 ? 这里count很好理解，是每页的评论数，访问的时候要加上，hl：0、source：user和comment：0这三个参数是一直不变的，加上就好，symbol是股票代码，访问时候必须要加上，page是评论的页数
4.1K60发布于 2018-01-31
来自专栏Lan小站
用python获取易班文章评论信息
commen['user']['nick']) with open('result.csv', 'a+',encoding='utf-') as f: f.write('姓名}用户id}昵称}楼层}评论时间 }评论内容') for i in range(len(name)): f.write( name[i] + "}" + nameid[i] + "}" +
46710编辑于 2022-07-14
来自专栏机器学习AI算法工程
京东商品和评论的分布式爬虫
因为我想要爬取的是商品的信息以及相应的评论，并没有爬取特定的商品的需求。所以在分析京东的网页的 url 的时候, 决定使用类似全站爬取的策略。分析如图： ? 提取数据在确定了爬取策略之后，爬虫就可以不断地进行工作了。那么爬虫怎么知道什么时候才是商品信息的页面呢？再来分析一下京东的商品页面： ? 爬虫拆分本来爬取商品信息的爬虫和爬取评论的爬虫都是同一只爬虫，但是后来发现，再不使用代理 IP 的情况下，爬取到 150000 条商品信息的时候，需要输入验证码。但是爬取商品评论的爬虫并不存在被反爬策略限制的情况。所以我将爬虫拆分成两只爬虫，即使无法爬取商品信息的时候，还可以爬取商品的评论信息。小结在爬取一天之后，爬虫成果：评论 ? 评论总结 ? 商品信息商品信息加上评论数约 150+w. ?
1.7K10发布于 2019-10-28
来自专栏python3
python3爬虫-下载网易云音乐，评论
参数一获取歌曲下载地址 "{"ids":"[1361348080]","level":"standard","encodeType":"aac","csrf_token":""}" 获取歌曲评论信息代码书写完毕之后，就进行测试阶段了，启动脚本，他给我返回的是json格式的字符串，400的错误，提示信息为参数错误，最终我排除了请求头是否不合法等原因，那就是我进行加密的时候，得出的加密结果不对。歌曲的下载地址为>>:", response.json()["data"][0]["url"]) def song_comment(self, songId): '''获取到歌曲评论信息，我只是将结果print出来，如果保存的话，可以单独写一个保存的方法''' print("开始爬取歌曲评论信息 try: print("用户: {}".format(dic["user"]["nickname"])) print("评论内容
1.1K20发布于 2020-01-16

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

马蜂窝评论信息爬虫，不受网站最多加载5页的限制

实战 Python 网络爬虫：美团美食商家信息和用户评论

信息安全——指纹将成为未来信息安全的马蜂窝

自动填写评论者信息

Python爬虫抓取微博评论

有组织的捅马蜂窝违法了吗

快速填写博客评论框信息

【爬虫软件】小红书评论区批量采集，含二级评论

深圳租房信息爬虫

Typecho——为评论增加地址信息展示

一键填写评论人信息

python爬虫–爬取网易云音乐评论

Python爬虫，抓取淘宝商品评论内容

Python爬虫之微博评论爬取

Python爬虫| 实战爬取腾讯视频评论

Python爬虫 | 如何获取网易云音乐评论

雪球网沪深全站股票评论爬虫

用python获取易班文章评论信息

京东商品和评论的分布式爬虫

python3爬虫-下载网易云音乐，评论

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

马蜂窝评论信息爬虫，不受网站最多加载5页的限制

实战 Python 网络爬虫：美团美食商家信息和用户评论

信息安全——指纹将成为未来信息安全的马蜂窝

自动填写评论者信息

Python爬虫 抓取微博评论

有组织的捅马蜂窝违法了吗

快速填写博客评论框信息

【爬虫软件】小红书评论区批量采集，含二级评论

深圳租房信息爬虫

Typecho——为评论增加地址信息展示

一键填写评论人信息

python爬虫–爬取网易云音乐评论

Python爬虫，抓取淘宝商品评论内容

Python爬虫之微博评论爬取

Python爬虫| 实战爬取腾讯视频评论

Python爬虫 | 如何获取网易云音乐评论

雪球网沪深全站股票评论爬虫

用python获取易班文章评论信息

京东商品和评论的分布式爬虫

python3爬虫-下载网易云音乐，评论

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python爬虫抓取微博评论