首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏萝卜大杂烩

    豆瓣海王评论

    “ 最近海王大火,今天就来看看豆瓣上对于海王这个大片的评论吧” Just Do It By Yourself 01.分析页面 豆瓣的评论区如下 可以看到这里需要进行翻页处理,通过观察发现,评论的URL 02.分别获取评论 豆瓣的评论是分为三个等级的,这里分别获取,方便后面的继续分析 其实可以看到,这里的三段区别主要在请求URL那里,分别对应豆瓣的好评,一般和差评。 效果 好评 一般 差评 感觉豆瓣还是比较简单的,毕竟并没有设置什么反手段,小伙伴们也可以一起动手试试

    62520发布于 2019-07-17
  • 来自专栏cs

    淘宝评论

    文章禁止转载,违者必究 淘宝网页的评论数据动态加载的,首先要关闭adblock等屏蔽插件广告。还有我登陆了账号。 ="tb-tab-anchor" href="javascript:void(0);" hidefocus="true" shortcut-key="g c" shortcut-label="查看累计评论 image.png 通过firefox浏览器,终于找到了评论的url,如下。 ? image.png 评论的url 这几个url在html源代码中可以找到。 下面就是构造所有的url 下面是1,2页数的评论,主要currentPageNum变化。构造出需要的网站。 https://rate.taobao.com/feedRateList.htm? image.png 参考文章如下 Python爬虫 获得淘宝商品评论 Python淘宝商品详情页数据 通过Python抓取天猫评论数据 Python xlrd、xlwt 用法说明

    2.1K30发布于 2018-09-30
  • 来自专栏数据魔术师

    如何微博评论

    数据 是的,今天,我们就来一下微博的评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何数据。 Tip:准备工作 ? 首先,我们需要找到一个待的微博,微博主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。 接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。 我们的工作是对评论进行,点击“下一页”,可见评论页数高达28514页,看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为: https://weibo.cn/comment/HASs7tfjN uid=3952070245&rl=0&page=3 网址最后的数字代表了页数,这也就为我们的评论提供了基础! Tip:算法 ? 算法介绍:Requests算法 1. 总结 这次我们只介绍了新浪微博移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着网页端或者手机端的数据哦~我们下期再见!

    2.2K40发布于 2019-07-10
  • 来自专栏渗透云笔记

    正则之豆瓣评论

    首先预热下,豆瓣首页 导入urllib库下的request import urllib.request 使用下urlopen打开网站返回HTML urllib.request.urlopen(" 简单点是用len看字节 >>> len(douban) 105653 豆瓣评论 导入正则模块(re) import re 写了个例子 #豆瓣评论小例子 import urllib.request from=showing 右键源代码 发现评论格式为 就是山西版本的《两杆大烟枪》或者说《疯狂的石头》,将山西风光和特色与影片融合的很好,虽然还是有所瑕疵,也难逃一些俗套烂大街的剧情和段子 所有评论被标签包裹,可以进行抓取,使用懒惰模式进行操作 .*? "." 保存到本地 fh = open("G:\\python\\doubanpinglun.txt","w")#打开文件并新建doubanpinglun.txt open里的路径为本地路径 完整代码如下 #豆瓣评论小例子

    67620发布于 2019-07-30
  • 来自专栏挖数

    网易云音乐评论

    本次通过网易云音乐的评论,即目前热歌榜第一名「出山」的评论。 来看看,在没被指出抄袭时,歌曲的评论画风是如何。 被指出抄袭后,又是怎样的一个画风。 / 01 / 网页分析 网上关于网易云音乐评论的方法,大多数都是讲如何构建参数去破解。 事实上不用那么复杂,直接调用接口就可以。 而且网易云音乐对评论也做了限制,只放出了2万条的评论数据。 包含了用户名、用户ID、年龄、性别、区域编码、个人介绍、评论评论ID、点赞数、评论发表时间。 按理说获取前500页,应该是有1w条的评论。 其中红圈为评论ID,都不一样,说明评论都是唯一的,不重复。 ? 第二位用户,一共25条评论,不过她并没有点赞数多的。 ? 第三位用户,一共24条评论,同样没有点赞数多的评论。 下面来看一下被爆抄袭后的评论用户。 ? 这位用户愣是评论了99条,其中评论都是一样的,不信看上图,就是末尾变了。 妥妥的水军,疯狂复制粘贴。 ? 这位用户,和评论区喷起来了... 一共94条评论

    4.6K75发布于 2019-06-20
  • 来自专栏前端小菜鸡yym

    当当网评论

    ---- 这是我参与8月更文挑战的第五天 活动详情查看:8月更文挑战 最近一直在当当网相关数据。 首先我们想要图书排行榜 我们分析一下网址http://bang.dangdang.com/books/newhotsales/01.00.00.00.00.00-24hours-0-0-1-1 如果想多页怎么办那? return reduce(lambda x,y:int(x)+int(y)/10**len(y),l) 我们接下来相关的评论信息: 评论数对应的超链接就是我们想要评论信息的网址: 我想要爬到好评率还有商品评论的标签 但是就是不到相应的数据。

    98830编辑于 2023-01-12
  • 来自专栏Eric杂货铺

    随机网易云音乐评论

    import requests import json for i in range(0,100,1): r = requests.get('http://api.heerdev.top:49

    92341发布于 2020-09-24
  • 来自专栏FSociety

    Python猫眼「碟中谍」全部评论

    我们将猫眼上碟中谍的全部评论保存下来,用于后期分析~ 总共评论3W条左右。 逻辑梳理 猫眼PC网页只能查看热门评论,只有在手机端页面才能查看全部评论。 我们用chrome手机模式打开碟中谍6的页面,然后找到了全部评论入口: [glzqq4u9kz.png] 当我们将评论页面向上拖,后台请求中变看到了我们想要的接口地址:http://m.maoyan.com 其实正常来说到这儿就差不多了,按照以往的套路循环传入offset参数就好了,不过当我爬到第67页的时候,就已经不返回值了,为啥是67,67$\times$15=1005,猫眼应该是控制了每个startTime只能往前1000 条评论,所以只能换个思路,将每页最早一条评论的时间作为startTime传入,offset固定15就好了。 nickName:用户昵称 cityName:城市 content:评论内容 score:用户评分 startTime:评论时间,每次最早的时间传入下次请求 ''' try

    55500发布于 2018-09-02
  • 来自专栏python进阶学习

    python热搜评论数据

    图片 关于粉丝们的各种评论我想大家肯定都比较感兴趣,这里我们可以使用python微博上有关tvb艺人直播热搜下得各种评论数据。 q=TV 经分析,微博热搜数据就在网页中,可以直接requests请求,然后BeautifulSoup解析获取内容,但是微博一直都有很严的反机制,特别是对IP的限制都很严格,所以在过程中我们可以使用 python爬虫+爬虫代理加强版IP+BeautifulSoup来完成数据的,完整代码如下: import java.io.IOException; import org.jsoup.Jsoup;

    94940编辑于 2023-03-08
  • 来自专栏极客猴

    网易云音乐精彩评论

    评论内容,让人泫然流涕的故事,就是让人深思的段子。 (二) 某天,猴哥突发奇想,想将自己平时喜欢听的歌曲的精彩评论取下来。以后就可以直接阅读这些评论,无须打开网页。 说干就干。 点击查看大图 那么思路是:使用 POST 方式携带参数 params 和 encSecKey 向该地址 http://music.163.com/weapi/v1/resource/comments 返回结果中的 Json 数据就是用户评论数据。 (三) 既然思路明确,编写代码就是容易多了。 这里,猴哥使用列表来保存想精彩评论的歌曲。 except UnicodeEncodeError: print("编码错误, 该数据无法写到文件中, 直接忽略该数据") 写到这里,小伙伴们应该了解如何运用 哈哈,最后请允许我贴下结果。 ?

    69620发布于 2018-08-16
  • 来自专栏FSociety

    Python猫眼「碟中谍」全部评论

    我们将猫眼上碟中谍的全部评论保存下来,用于后期分析~ 总共评论3W条左右。 逻辑梳理 猫眼PC网页只能查看热门评论,只有在手机端页面才能查看全部评论。 我们用chrome手机模式打开碟中谍6的页面,然后找到了全部评论入口: 当我们将评论页面向上拖,后台请求中变看到了我们想要的接口地址:http://m.maoyan.com/mmdb/ 其实正常来说到这儿就差不多了,按照以往的套路循环传入offset参数就好了,不过当我爬到第67页的时候,就已经不返回值了,为啥是67,67 15=1005,猫眼应该是控制了每个startTime只能往前1000 条评论,所以只能换个思路,将每页最早一条评论的时间作为startTime传入,offset固定15就好了。 startTime:评论时间,每次最早的时间传入下次请求 ''' time.sleep(random()) try: response

    84530发布于 2018-09-11
  • 来自专栏全栈程序员必看

    python爬虫–网易云音乐评论

    python爬虫–网易云音乐评论 方1:使用selenium模块,简单粗暴。但是虽然方便但是缺点也是很明显,运行慢等等等。 方2:常规思路:直接去请求服务器 1.简易看出评论是动态加载的,一定是ajax方式。 , f), #返回的是encSecKey e和f定死,能产生变数的只能是i h }''' if __name__ == '__main__': page = int(input('请输入需要的页数 ['likedCount'])+'\n') fp.write('-------------------------------------'+'\n') print('完毕 效果图 image.png 感想 通过这次爬虫实验,在的过程中,遇到各种困难,收货很多。掌握遇到加密,该如何处理的步骤,以及拓宽自己的思路,去运用各种工具。以及各种自己想不到的思路。

    1.3K30发布于 2021-04-21
  • 来自专栏九陌斋

    根据话题微博与评论

    思路阐述 微博获取 weibo.com获取微博url、用户名称以及微博内容等信息 进一步根据用户名称在weibo.com中进行用户url获取 根据构建的用户url在weibo.cn中微博发布者的信息 = 0: print('正在第',page,'页,第',i,'条微博的评论。') user_url = []#用户url user_name = []#用户昵称 while True: page=page+1 print('正在第 '='*40,pageA,'='*40) except: print('没有下一页') break print("#"*20,'评论结束 ,下面开始评论人信息',"#"*20) print(len(like_times),len(count),len(date),len(user_url),len(user_name))

    67920编辑于 2022-12-26
  • 来自专栏Python中文社区

    Python网易云音乐热门评论

    分析api 我们在搜索框里输入comments即可找到对应的获取评论的api的url,点击它在右边选择Response就可以看到返回的json了。 但只限于第一页,其他页码就不一样了,不过对于我们热门评论,第一页就够了。 如图: json格式 这个json里有丰富的信息,包括评论总数、用户名、热评、点赞数等。清楚了json 的结构,很容易就可以解析得到想要的信息了。 解析代码如下: 输出结果: 输出结果 一个歌单所有歌的热门评论 以上已经展示了怎么一首歌的热门评论,接下来我们就可以进一步把一个歌单里所有歌的热门评论取出来。 思路就是,将这个歌单所有歌曲的id取出来,替换到之前的url中,然后进行同样的输出。 同样的方法,我们发送歌单的url访问请求,读取response的返回内容看看情况。

    1.8K100发布于 2018-01-31
  • 来自专栏各类技术文章~

    pythonB站《元龙》评论

    本次B站评论的目标,我们选取最近正在热播的《元龙》。 1、前期准备 首先我们先进入到《元龙》的页面 image.png 接下来按F12进入开发者模式 image.png 接下来点击headers,我们发现了一个url,这个url里面就存在我们做需要的评论的数据 image.png 2、编程部分 首先对网页内容进行 import requests import json import time def fenchUrl(url): headers blist.append(content) commentList.append(blist) writePage(commentList) print("---" * 20) 最后对所的内容进行保存 print(dataFrame) dataFrame.to_csv(r"E:\test.csv",mode='a', index=False, sep=',', header=False) 结果如下

    57640发布于 2021-09-15
  • 来自专栏后台技术杂项笔记

    携程,去哪儿评论,攻略

    携程,去哪儿评论,攻略 前几天受朋友委托要携程网和去哪儿网一些景点的评论,在翻阅了许多代码后并自己改写后终于完成。 import webdriver from pyquery import PyQuery as pq import pandas as pd from math import ceil """从网上数据 ", placenames[pp], "的评论") # 10.根据页数找到所有评论 for j in range(page): print("第", j, "页 去哪儿网 4.总结 在了解selenium+BeautifulSoup+pandas的基础上要完成就比较简单。 其实当初委托中还有要马蜂窝的评论,但马蜂窝的反机制相对较强,试了很多方法都不成功。因此最后只了去哪儿网和携程网。本蒟蒻知识有限,按传统功夫,点到为止,权当兴趣了解,勿喷。

    2.3K10编辑于 2022-09-26
  • 来自专栏Python中文社区

    Python爬虫之微博评论

    專 欄 ❈ 罗罗攀,Python中文社区专栏作者 专栏地址: http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟微博登录 需要登录之后的信息 异步加载数据如何 我在网上看过移动端的微博数据很好,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条微博和评论的js包。 我们只需请求这个js数据,然后利用json库即可提取我们所需的评论数据。 ? ? 代码 ? 的数据导入数据库后又导出为csv格式进行分析 词云制作及分析 ? 可以说支持的评论更多一些:例如爱你,喜欢,坚强等等;不过也有不少的恶意评论:黑,恶心,讨厌等。

    1.4K60发布于 2018-02-01
  • 来自专栏JAVAandPython君

    Python爬虫| 实战腾讯视频评论

    Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于代理服务器 有Python的编译环境,一般选择Python3.0及以上 声明:本次腾讯视频里 《最美公里》纪录片的评论。 本次使用的浏览器是谷歌浏览器 二、分析思路 1、分析评论页面 ? 根据上图,我们可以知道:评论使用了Ajax异步刷新技术。这样就不能使用以前分析当前页面找出规律的手段了。 因为展示的页面只有部分评论,还有大量的评论没有被刷新出来。 这时,我们应该想到使用抓包来分析评论页面刷新的规律。以后大部分爬虫,都会先使用抓包技术,分析出规律! 百度一下,看前人有没有过这种类型的网站,根据他们的规律和方法,去找出规律; 羊毛出在羊身上。我们需要有的大胆想法——会不会这个cursor=?可以根据上一个JS页面得到呢?

    2.5K01发布于 2019-12-25
  • B站评论:Python技术实现详解

    准备工作在开始B站评论之前,我们需要做一些准备工作:Python环境:确保你的电脑上已经安装了Python,并且能够正常运行。 你可以使用以下命令来安装这两个库:编写爬虫程序第一步:获取评论页面URL首先,我们需要找到要评论的视频页面,并获取其评论页面的URL。 :只需将要的视频网址写入video_list.txt文件中,程序会自动遍历网址列表,每个视频的评论,并保存到以视频ID命名的CSV文件中。 只需一次登录:手动登录B站一次后,程序会自动保存cookies,下次运行程序时无需再次登录,确保持续评论数据。 断点续:程序支持断点续功能,如果中断了爬虫,下次运行时会根据progress.txt文件中的进度继续评论,并且已

    1.5K10编辑于 2024-04-30
  • 来自专栏FSociety

    Python爬虫网易云音乐全部评论

    2.接下来就打开控制台找我们要的评论藏在哪里就好了。 csrf_token=发现了我们要的评论,包括热门评论,我们注意看下R_SO_4_后面的数字,其实就是每首歌的id,如果我们想一次性多首歌曲的评论的话,可以通过每次传入歌曲id来实现; image.png print "程序耗时%f秒." % (end_time - start_time) print '***NetEase_Music_Spider@Awesome_Tang***' 本次的是最近一直循环的 <beautiful now--Zedd/Jon Bellion>,评论共计37429条,1872页,程序耗时1036.046966秒,接近20分钟。 Notes 各位的时候一定要使用代理IP,我后面准备周董最近的新歌<等你下课>的评论的,爬到5000多页也就是差不多10W条的时候,被封IP了,导致我们整个公司的网络都一段时间内不能访问网易云音乐的评论

    1.7K51发布于 2018-09-11
领券