搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏萝卜大杂烩
爬取豆瓣海王评论
“ 最近海王大火，今天就来看看豆瓣上对于海王这个大片的评论吧” Just Do It By Yourself 01.分析页面豆瓣的评论区如下可以看到这里需要进行翻页处理，通过观察发现，评论的URL 02.分别获取评论豆瓣的评论是分为三个等级的，这里分别获取，方便后面的继续分析其实可以看到，这里的三段区别主要在请求URL那里，分别对应豆瓣的好评，一般和差评。效果好评一般差评感觉爬取豆瓣还是比较简单的，毕竟并没有设置什么反爬手段，小伙伴们也可以一起动手试试
62520发布于 2019-07-17
来自专栏cs
淘宝评论的爬取
文章禁止转载，违者必究淘宝网页的评论数据动态加载的，首先要关闭adblock等屏蔽插件广告。还有我登陆了账号。 ="tb-tab-anchor" href="javascript:void(0);" hidefocus="true" shortcut-key="g c" shortcut-label="查看累计评论 image.png 通过firefox浏览器，终于找到了评论的url，如下。 ? image.png 评论的url 这几个url在html源代码中可以找到。下面就是构造所有的url 下面是1,2页数的评论，主要currentPageNum变化。构造出需要的网站。 https://rate.taobao.com/feedRateList.htm? image.png 参考文章如下 Python爬虫获得淘宝商品评论 Python爬取淘宝商品详情页数据通过Python抓取天猫评论数据 Python xlrd、xlwt 用法说明
2.1K30发布于 2018-09-30
来自专栏数据魔术师
如何爬取微博评论
数据爬取是的，今天，我们就来爬一下微博的评论，前面已经给大家介绍了很多经典算法，大家对于python基本的内容已经熟悉啦，今天，我们就简单的来学习一下如何爬数据。 Tip：准备工作 ? 首先，我们需要找到一个待爬取的微博，微博主要是三种界面，分别是网页版、手机端和移动端，我们选取最简单的移动端来练手。接下来，就开始我们的爬虫了，我们就选取前几天大热的范冰冰的博客吧。我们的工作是对评论进行爬取，点击“下一页”，可见评论页数高达28514页，看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为： https://weibo.cn/comment/HASs7tfjN uid=3952070245&rl=0&page=3 网址最后的数字代表了页数，这也就为我们的评论爬取提供了基础！ Tip：爬取算法 ? 算法介绍：Requests算法 1. 总结这次我们只介绍了爬取新浪微博移动端的评论数据（因为这个比较简单....）大家可以用这个方法试着爬取网页端或者手机端的数据哦~我们下期再见！
2.2K40发布于 2019-07-10
来自专栏渗透云笔记
正则之爬取豆瓣评论
首先预热下，爬取豆瓣首页导入urllib库下的request import urllib.request 使用下urlopen打开网站返回HTML urllib.request.urlopen(" 简单点是用len看字节 >>> len(douban) 105653 爬取豆瓣评论导入正则模块（re） import re 写了个例子 #豆瓣评论爬取小例子 import urllib.request from=showing 右键源代码发现评论格式为就是山西版本的《两杆大烟枪》或者说《疯狂的石头》，将山西风光和特色与影片融合的很好，虽然还是有所瑕疵，也难逃一些俗套烂大街的剧情和段子所有评论被标签包裹，可以进行抓取，使用懒惰模式进行操作 .*? "." 保存到本地 fh = open("G:\\python\\doubanpinglun.txt","w")#打开文件并新建doubanpinglun.txt open里的路径为本地路径完整代码如下 #豆瓣评论爬取小例子
67620发布于 2019-07-30
来自专栏挖数
网易云音乐评论爬取。
本次通过爬取网易云音乐的评论，即目前热歌榜第一名「出山」的评论。来看看，在没被指出抄袭时，歌曲的评论画风是如何。被指出抄袭后，又是怎样的一个画风。 / 01 / 网页分析网上关于爬取网易云音乐评论的方法，大多数都是讲如何构建参数去破解。事实上不用那么复杂，直接调用接口就可以。而且网易云音乐对评论也做了限制，只放出了2万条的评论数据。包含了用户名、用户ID、年龄、性别、区域编码、个人介绍、评论、评论ID、点赞数、评论发表时间。按理说获取前500页，应该是有1w条的评论。其中红圈为评论ID，都不一样，说明评论都是唯一的，不重复。 ? 第二位用户，一共25条评论，不过她并没有点赞数多的。 ? 第三位用户，一共24条评论，同样没有点赞数多的评论。下面来看一下被爆抄袭后的评论用户。 ? 这位用户愣是评论了99条，其中评论都是一样的，不信看上图，就是末尾变了。妥妥的水军，疯狂复制粘贴。 ? 这位用户，和评论区喷起来了... 一共94条评论。
4.6K75发布于 2019-06-20
来自专栏前端小菜鸡yym
爬取当当网评论
---- 这是我参与8月更文挑战的第五天活动详情查看：8月更文挑战最近一直在爬当当网相关数据。首先我们想要爬取图书排行榜我们分析一下网址http://bang.dangdang.com/books/newhotsales/01.00.00.00.00.00-24hours-0-0-1-1 如果想爬多页怎么办那？ return reduce(lambda x,y:int(x)+int(y)/10**len(y),l) 我们接下来爬相关的评论信息：评论数对应的超链接就是我们想要爬的评论信息的网址：我想要爬到好评率还有商品评论的标签但是就是爬不到相应的数据。
98830编辑于 2023-01-12
来自专栏Eric杂货铺
随机爬取网易云音乐评论
import requests import json for i in range(0,100,1): r = requests.get('http://api.heerdev.top:49
92341发布于 2020-09-24
来自专栏FSociety
Python爬取猫眼「碟中谍」全部评论
我们将猫眼上碟中谍的全部评论保存下来，用于后期分析～总共评论3W条左右。逻辑梳理猫眼PC网页只能查看热门评论，只有在手机端页面才能查看全部评论。我们用chrome手机模式打开碟中谍6的页面，然后找到了全部评论入口： [glzqq4u9kz.png] 当我们将评论页面向上拖，后台请求中变看到了我们想要的接口地址：http://m.maoyan.com 其实正常来说到这儿就差不多了，按照以往的套路循环传入offset参数就好了，不过当我爬到第67页的时候，就已经不返回值了，为啥是67，67$\times$15=1005，猫眼应该是控制了每个startTime只能往前取1000 条评论，所以只能换个思路，将每页最早一条评论的时间作为startTime传入，offset固定15就好了。 nickName:用户昵称 cityName:城市 content:评论内容 score:用户评分 startTime:评论时间，每次取最早的时间传入下次请求 ''' try
55500发布于 2018-09-02
来自专栏python进阶学习
python爬取热搜评论数据
图片关于粉丝们的各种评论我想大家肯定都比较感兴趣，这里我们可以使用python爬取微博上有关tvb艺人直播热搜下得各种评论数据。 q=TV 经分析，微博热搜数据就在网页中，可以直接requests请求，然后BeautifulSoup解析获取内容，但是微博一直都有很严的反爬机制，特别是对IP的限制都很严格，所以在爬取过程中我们可以使用 python爬虫+爬虫代理加强版IP+BeautifulSoup来完成数据的爬取，完整代码如下： import java.io.IOException; import org.jsoup.Jsoup;
94940编辑于 2023-03-08
来自专栏极客猴
爬取网易云音乐精彩评论
评论内容，让人泫然流涕的故事，就是让人深思的段子。（二）某天，猴哥突发奇想，想将自己平时喜欢听的歌曲的精彩评论爬取下来。以后就可以直接阅读这些评论，无须打开网页。说干就干。点击查看大图那么爬取思路是：使用 POST 方式携带参数 params 和 encSecKey 向该地址 http://music.163.com/weapi/v1/resource/comments 返回结果中的 Json 数据就是用户评论数据。（三）既然思路明确，编写代码就是容易多了。这里，猴哥使用列表来保存想爬取精彩评论的歌曲。 except UnicodeEncodeError: print("编码错误, 该数据无法写到文件中, 直接忽略该数据") 写到这里，小伙伴们应该了解如何爬取运用哈哈，最后请允许我贴下爬取结果。 ?
69620发布于 2018-08-16
来自专栏FSociety
Python爬取猫眼「碟中谍」全部评论
我们将猫眼上碟中谍的全部评论保存下来，用于后期分析～总共评论3W条左右。逻辑梳理猫眼PC网页只能查看热门评论，只有在手机端页面才能查看全部评论。我们用chrome手机模式打开碟中谍6的页面，然后找到了全部评论入口：当我们将评论页面向上拖，后台请求中变看到了我们想要的接口地址：http://m.maoyan.com/mmdb/ 其实正常来说到这儿就差不多了，按照以往的套路循环传入offset参数就好了，不过当我爬到第67页的时候，就已经不返回值了，为啥是67，67 15=1005，猫眼应该是控制了每个startTime只能往前取1000 条评论，所以只能换个思路，将每页最早一条评论的时间作为startTime传入，offset固定15就好了。 startTime:评论时间，每次取最早的时间传入下次请求 ''' time.sleep(random()) try: response
84530发布于 2018-09-11
来自专栏全栈程序员必看
python爬虫–爬取网易云音乐评论
python爬虫–爬取网易云音乐评论方1：使用selenium模块，简单粗暴。但是虽然方便但是缺点也是很明显，运行慢等等等。方2：常规思路：直接去请求服务器 1.简易看出评论是动态加载的，一定是ajax方式。 , f), #返回的是encSecKey e和f定死，能产生变数的只能是i h }''' if __name__ == '__main__': page = int(input('请输入需要爬取的页数 ['likedCount'])+'\n') fp.write('-------------------------------------'+'\n') print('爬取完毕效果图 image.png 感想通过这次爬虫实验，在爬取的过程中，遇到各种困难，收货很多。掌握遇到加密，该如何处理的步骤，以及拓宽自己的思路，去运用各种工具。以及各种自己想不到的思路。
1.3K30发布于 2021-04-21
来自专栏九陌斋
根据话题爬取微博与评论
思路阐述微博获取 weibo.com获取微博url、用户名称以及微博内容等信息进一步根据用户名称在weibo.com中进行用户url获取根据构建的用户url在weibo.cn中爬取微博发布者的信息 = 0: print('正在爬取第',page,'页，第',i,'条微博的评论。') user_url = []#用户url user_name = []#用户昵称 while True: page=page+1 print('正在爬取第 '='*40,pageA,'='*40) except: print('没有下一页') break print("#"*20,'评论爬取结束，下面开始爬取评论人信息',"#"*20) print(len(like_times),len(count),len(date),len(user_url),len(user_name))
67920编辑于 2022-12-26
来自专栏Python中文社区
Python爬取网易云音乐热门评论
分析api 我们在搜索框里输入comments即可找到对应的获取评论的api的url，点击它在右边选择Response就可以看到返回的json了。但只限于第一页，其他页码就不一样了，不过对于我们爬取热门评论，第一页就够了。如图： json格式这个json里有丰富的信息，包括评论总数、用户名、热评、点赞数等。清楚了json 的结构，很容易就可以解析得到想要的信息了。解析代码如下：输出结果：输出结果爬取一个歌单所有歌的热门评论以上已经展示了怎么爬取一首歌的热门评论，接下来我们就可以进一步把一个歌单里所有歌的热门评论都爬取出来。思路就是，将这个歌单所有歌曲的id爬取出来，替换到之前的url中，然后进行同样的输出。同样的方法，我们发送歌单的url访问请求，读取response的返回内容看看情况。
1.8K100发布于 2018-01-31
来自专栏各类技术文章~
python爬取B站《元龙》评论
本次爬取B站评论的目标，我们选取最近正在热播的《元龙》。 1、前期准备首先我们先进入到《元龙》的页面 image.png 接下来按F12进入开发者模式 image.png 接下来点击headers,我们发现了一个url，这个url里面就存在我们做需要的评论的数据 image.png 2、编程部分首先对网页内容进行爬取 import requests import json import time def fenchUrl(url): headers blist.append(content) commentList.append(blist) writePage(commentList) print("---" * 20) 最后对所爬取的内容进行保存 print(dataFrame) dataFrame.to_csv(r"E:\test.csv",mode='a', index=False, sep=',', header=False) 爬取结果如下
57640发布于 2021-09-15
来自专栏后台技术杂项笔记
携程，去哪儿评论，攻略爬取
携程，去哪儿评论，攻略爬取前几天受朋友委托要爬取携程网和去哪儿网一些景点的评论，在翻阅了许多代码后并自己改写后终于完成。 import webdriver from pyquery import PyQuery as pq import pandas as pd from math import ceil """从网上爬取数据 ", placenames[pp], "的评论") # 10.根据页数找到所有评论 for j in range(page): print("爬取第", j, "页去哪儿网 4.总结在了解selenium+BeautifulSoup+pandas的基础上要完成爬取就比较简单。其实当初委托中还有要爬马蜂窝的评论，但马蜂窝的反爬机制相对较强，试了很多方法都不成功。因此最后只爬了去哪儿网和携程网。本蒟蒻知识有限，按传统功夫，点到为止，权当兴趣了解，勿喷。
2.3K10编辑于 2022-09-26
来自专栏Python中文社区
Python爬虫之微博评论爬取
專欄 ❈ 罗罗攀，Python中文社区专栏作者专栏地址： http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟微博登录需要爬取登录之后的信息异步加载数据如何爬取我在网上看过移动端的微博数据很好爬，没有异步加载，可是不知道为什么，我的评论数据就是异步加载的，其实异步加载不可怕，找到相应js包即可，如下图为某明星的一条微博和评论的js包。我们只需请求这个js数据，然后利用json库即可提取我们所需的评论数据。 ? ? 代码 ? 爬取的数据导入数据库后又导出为csv格式进行分析词云制作及分析 ? 可以说支持的评论更多一些：例如爱你，喜欢，坚强等等；不过也有不少的恶意评论：黑，恶心，讨厌等。
1.4K60发布于 2018-02-01
来自专栏JAVAandPython君
Python爬虫| 实战爬取腾讯视频评论
Fiddler了（用于抓包分析）谷歌或火狐浏览器如果是谷歌浏览器，还需要给谷歌浏览器安装一个SwitchyOmega插件，用于代理服务器有Python的编译环境，一般选择Python3.0及以上声明：本次爬取腾讯视频里《最美公里》纪录片的评论。本次爬取使用的浏览器是谷歌浏览器二、分析思路 1、分析评论页面 ? 根据上图，我们可以知道：评论使用了Ajax异步刷新技术。这样就不能使用以前分析当前页面找出规律的手段了。因为展示的页面只有部分评论，还有大量的评论没有被刷新出来。这时，我们应该想到使用抓包来分析评论页面刷新的规律。以后大部分爬虫，都会先使用抓包技术，分析出规律！百度一下，看前人有没有爬取过这种类型的网站，根据他们的规律和方法，去找出规律；羊毛出在羊身上。我们需要有的大胆想法——会不会这个cursor=?可以根据上一个JS页面得到呢？
2.5K01发布于 2019-12-25
爬取B站评论：Python技术实现详解
准备工作在开始爬取B站评论之前，我们需要做一些准备工作：Python环境：确保你的电脑上已经安装了Python，并且能够正常运行。你可以使用以下命令来安装这两个库：编写爬虫程序第一步：获取评论页面URL首先，我们需要找到要爬取评论的视频页面，并获取其评论页面的URL。：只需将要爬取的视频网址写入video_list.txt文件中，程序会自动遍历网址列表，爬取每个视频的评论，并保存到以视频ID命名的CSV文件中。只需一次登录：手动登录B站一次后，程序会自动保存cookies，下次运行程序时无需再次登录，确保持续爬取评论数据。断点续爬：程序支持断点续爬功能，如果中断了爬虫，下次运行时会根据progress.txt文件中的进度继续爬取评论，并且已
1.5K10编辑于 2024-04-30
来自专栏FSociety
Python爬虫爬取网易云音乐全部评论
2.接下来就打开控制台找我们要的评论藏在哪里就好了。 csrf_token=发现了我们要的评论，包括热门评论，我们注意看下R_SO_4_后面的数字，其实就是每首歌的id，如果我们想一次性爬取多首歌曲的评论的话，可以通过每次传入歌曲id来实现; image.png print "程序耗时%f秒." % (end_time - start_time) print '***NetEase_Music_Spider@Awesome_Tang***' 本次爬的是最近一直循环的 <beautiful now--Zedd/Jon Bellion>，评论共计37429条,1872页，程序耗时1036.046966秒，接近20分钟。 Notes 各位爬的时候一定要使用代理IP，我后面准备爬周董最近的新歌<等你下课>的评论的，爬到5000多页也就是差不多10W条的时候，被封IP了，导致我们整个公司的网络都一段时间内不能访问网易云音乐的评论
1.7K51发布于 2018-09-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

爬取豆瓣海王评论

淘宝评论的爬取

如何爬取微博评论

正则之爬取豆瓣评论

网易云音乐评论爬取。

爬取当当网评论

随机爬取网易云音乐评论

Python爬取猫眼「碟中谍」全部评论

python爬取热搜评论数据

爬取网易云音乐精彩评论

Python爬取猫眼「碟中谍」全部评论

python爬虫–爬取网易云音乐评论

根据话题爬取微博与评论

Python爬取网易云音乐热门评论

python爬取B站《元龙》评论

携程，去哪儿评论，攻略爬取

Python爬虫之微博评论爬取

Python爬虫| 实战爬取腾讯视频评论

爬取B站评论：Python技术实现详解

Python爬虫爬取网易云音乐全部评论

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐