首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏IT 茂茂

    Python爬虫 抓取评论

    .decode("utf-8") # 预登陆获得 servertime, nonce, pubkey, rsakv def get_server_data(self, su): """与原来的相比,的登录从 注册的手机号) password = "123456" # 密码 cookie_path = "Cookie.txt" # 保存cookie 的文件名称 id = '4477416430959369' # 爬取的 ', 'username', 'following', 'followed', 'gender']) start_crawl(get_cookies(), id) 第八步:获取id 你需要获得想要找的 首先找到你想爬的,这里以故事为例,在浏览器内按下F12,并且点击评论按钮 点击‘网络’,找到一条像图中的get请求。 .decode("utf-8") # 预登陆获得 servertime, nonce, pubkey, rsakv def get_server_data(self, su): """与原来的相比,的登录从

    2.1K20编辑于 2022-05-11
  • 来自专栏数据爬取

    爬虫 | 评论爬取下载,同步获取一二级评论

    今天给大家分享一款简单到有点简陋的评论专门的爬取下载小工具。很多同学写论文、自媒创作想要从上去爬取一些素材,总是感到力不从心,有了这款小工具,相信以后就再也不用发愁了。 言归正传,下面我们就来看看这款小工具:简单或者说简陋的界面我们先打开更新cookie的教程链接,更新一下软件目录下的weibo_cookie,因为是需要登录后才可以显示更多内容的。 所以这个登录信息必须要提前做,不然将只能查看一页也就是只能采集到一页的评论内容。 cookie文件cookie值要复制到文件当中,过期了要更新一下这个Mid,也就是文采集表格当中的这列字段,对应后面的评论数,我们随便找一个。复制一下,粘贴到软件当中,回车,软件就自动运行了。 导出的文件发现一级及二级评论均已经在表格当中了,字段包括评论数,点赞数,评论内容、评论用户、时间等。

    2.1K50编辑于 2022-11-14
  • 来自专栏Python中文社区

    Python爬虫评论爬取

    專 欄 ❈ 罗罗攀,Python中文社区专栏作者 专栏地址: http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟登录 需要爬取登录之后的信息 ,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录,首先,我们找到某明星的网址:http://m.weibo.cn/u/1732927460 这里是登录的移动端 ,你会发现,你点击网址会自动跳转到登录的界面(没有跳转的注销掉自己的账号),如下图所示: ? 然后登录自己的账号密码,这时记得打开Fiddler进行抓包,如图所示,提取Cookie做为请求某明星网址的请求头即可。 ? 异步加载数据如何爬取 我在网上看过移动端的数据很好爬,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条评论的js包。

    1.4K60发布于 2018-02-01
  • 来自专栏月小水长

    2023 评论爬虫 | 突破 1000 页限制,抓取 10w 条评论

    相比较一条的正文内容,评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对评论的抓取需求较大,笔者在以往分享过几个评论抓取的代码或者教程: 2021 新版评论及其子评论爬虫发布 新增 ip 属地,抓得更多,超级评论爬虫大更新 维护了三年依然有效,但是有一个问题,由于接口限制,很多评论只能抓到前面几十页或者几百页,对应的评论数量也就是几百条或者几千条,怎么在一条中爬到上万条评论甚至几十万条评论呢 这是一个全新的评论爬虫系统,抓取的 csv 结果字段包括评论 id、评论时间、评论内容、评论回复数、点赞数、评论用户 id、评论用户名、评论用户性别、评论用户地址、评论用户认证类型、评论用户的粉丝数和关注数等字段 ~,全部为网页公开信息,不包括任何隐私数据,示例结果文件如下: 爬虫系统部署在服务器上,可在以下网页直接使用: https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider : 最后,点击下方阅读原文直达评论爬虫系统,也可复制下方地址到浏览器打开 https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider

    4.5K20编辑于 2023-07-03
  • 来自专栏用户画像

    订阅评论

    参考:http://open.weibo.com/wiki/%E7%A4%BA%E4%BE%8B%E4%BB%A3%E7%A0%81 开放平台给出的代码有很多bug,在此纠正 如乱码问题的解决: String

    93221发布于 2018-08-24
  • 来自专栏九陌斋

    2021最新爬虫——根据话题名称获取所有相关评论

    由于课程大作业需要进行一些有关NLP的分析,在网上没有找到特别好使的代码,所以就干脆自己写一个爬虫,可以根据话题名称对其内容、评论内容、发布者相关信息进行爬取,目前作者测试是没有特别的问题的。 -首先确定抓取内容、评论数、点赞数、发布时间、发布者名称等主要字段。 获取url、用户名称以及内容等信息 2. 进一步根据用户名称在weibo.com中进行用户url获取 3.根据构建的用户url在weibo.cn中爬取发布者的信息 评论获取: 1.根据上面获取的标识,构建weibo.cn中对应的地址 writer.writerow(['类别', '用户名', '用户链接', '性别', '地区', '数', '关注数', '粉丝数', '评论内容', '评论时间', '点赞次数']) 存入微

    4.8K11编辑于 2022-12-27
  • 来自专栏大数据

    爬虫

    全文简介 本文是用Python爬取移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。 至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧! 环境介绍 Python3 Windows-10-64位 移动端 网页分析 以获取评论信息为例(你可以以自己的喜好获得其他数据)。 如下图: 在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。 接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。

    1.8K50发布于 2018-01-18
  • 来自专栏月小水长

    爬虫重要更新:根据话题爬虫的结果批量化爬评论

    在公众号以前的一篇文章 爬虫综述、错误汇总、Q&A 中,阐述了爬虫的不同目标站点之间的差异,并明确了我的爬虫的站点策略。 在 weibo.cn 站点爬取指定话题的爬虫文件名是 WeiboTopicScrapy.py 。 在 m.weibo.cn 站点指定评论爬虫文件名是 WeiboSuperCommentScrapy.py。 在这两个站点,就算是同一个用户的同一条,其唯一标识也不一样,话题爬虫的是诸如 Is0XboARR 这样的形式,看上去是不规则的字符串,通常长度为 9,称之为的 mid,而后者是 4467107636950632 ,否则就算该条评论爬取结束.。

    1.5K10发布于 2020-05-26
  • 来自专栏月小水长

    新增 ip 属地,抓得更多,超级评论爬虫大更新

    这是 月小水长 的第 130 篇原创干货 2021 新版评论及其子评论爬虫发布 发布将近一年了,其中大大小小陆续更新过好几次,主要是由于 weibo.com 改版或者新增 feature。 这次的更新也是如此,一者 weibo.com 对评论接口的修改,使得之前的版本能抓到的评论变少了;二是因为评论 ip 属地需要新增。 开始构建所需的关键词在 2021 新版评论及其子评论爬虫发布 获取。 网站地址: https://weibo-super-comment-spider.buyixiao.xyz/

    92510编辑于 2022-09-03
  • 来自专栏数据魔术师

    如何爬取评论

    01 前言 ,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间就爆炸。 数据爬取 是的,今天,我们就来爬一下评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何爬数据。 Tip:准备工作 ? 首先,我们需要找到一个待爬取的主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。 接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。 页面如下图所示: ? 总结 这次我们只介绍了爬取新浪移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着爬取网页端或者手机端的数据哦~我们下期再见!

    2.2K40发布于 2019-07-10
  • 来自专栏葫芦

    python 新浪爬虫

    (urank)+"\n") #获取内容信息,并保存到文本中,内容包括:每条的内容、详情页面地址、点赞数、评论数、转发数等 def get_weibo(id,file): i=1 "+"内容:"+text+"\n"+"点赞数:"+str(attitudes_count)+"\n"+"评论数:"+str(comments_count)+"\n"+"转发数:"+str(reposts_count 点赞数:0 评论数:0 转发数:0 ----第1页,第1条---- 地址:https://m.weibo.cn/status/GyHogu2PR? mblogid=GyHogu2PR&luicode=10000011&lfid=1076036418190932 发布时间:09-10 内容:这波反弹的动力来源于权重股 ​​​ 点赞数:0 评论数: 点赞数:0 评论数:0 转发数:0 ----第1页,第3条---- 地址:https://m.weibo.cn/status/GyHocDf15?

    1.8K40发布于 2019-04-17
  • 来自专栏用户5305560的专栏

    爬虫】新浪爬虫——环境部署

    1.先安装Python环境,作者是Python 2.7.8 2.再安装PIP或者easy_install 3.通过命令pip install selenium安装selenium,它是自动测试、爬虫的工具 4.然后修改代码中的用户名和密码,填写你自己的用户名和密码 5.运行程序,自动调用Firefox浏览器登陆 注意:手机端信息更加精致简单,而且没有动态加载的一些限制,但是如或粉丝id只显示 20页,这是它的缺点; 而客户端可能存在动态加载,如评论,但是它的信息更加完整。 _1.txt 输出: 信息及用户基本信息 SinaWeibo_Info_best_1.txt Megry_Result_Best.py 该文件用户整理某一天的用户信息,如2016年4月23 日 [源码] 爬取客户端信息 爬取客户端信息,但是评论是动态加载,还在研究中 weibo_spider2.py

    42210发布于 2021-12-02
  • 来自专栏月小水长

    位置爬虫发布

    数据分析经常需要和地理位置相关联,比如查看某一话题爬虫下发人员地理分布,或者用户爬虫下某人轨迹分布,等等;而这次的位置爬虫则是直接以位置为切入点爬取,只需要输入一个地名,就能抓取在该地点发过的具体信息 这个位置爬虫的结果可以和用户信息爬虫联动,比如有这样一个分析任务:去北京环球影城的人,都发了什么,男生多还是女生多,年龄群体分布怎么样,等等。 都可以先用这个位置爬虫,爬完后的 csv 交给用户信息爬虫处理。 闲话不多说,首先在本号(月小水长)后台回复关键词 位置爬虫 获取 pyd 文件(only for python3.6 64 bit),然后在新建一个 py 文件,引用这个 pyd 文件 from WeiboLocationSpider ,这样就能爬到更多的位置数据。

    93720发布于 2021-09-24
  • 来自专栏用户8670130的专栏

    查看评论数据文件

    0 2020-10-15 22:29 /warehousedrwxr-xr-x - root supergroup 0 2020-10-15 22:29 /workspace 六、需求:上传蔡徐坤评论数据到 里面包含了大量蔡徐坤相关的评论数据集,我们需要将这些数据集上传到HDFS中。 <dst> (2)上传评论数据 创建对应的文件夹。

    95830发布于 2021-08-31
  • 来自专栏Java项目实战

    评论功能系统设计

    图片评论功能是一种非常常见的社交媒体功能,它允许用户对进行评论和互动。在设计评论功能时,需要考虑用户体验、安全性、性能和可扩展性等方面。本文将详细介绍如何设计评论功能。 功能需求分析在设计评论功能之前,需要进行功能需求分析,明确该功能需要实现哪些功能。具体功能如下:(1)用户可以在下方评论框内输入文本并提交评论评论表的结构如下图所示:评论表包括以下字段:(1)评论ID:唯一标识评论的ID。(2)ID:评论所属的ID。(3)评论内容:评论的文本内容。(4)评论人ID:评论人的ID。 具体API接口如下:(1)添加评论API地址:/comment/add请求方法:POST请求参数:ID:的ID。评论内容:评论的文本内容。评论人ID:评论人的ID。 请求示例:{"commentId": "789"}返回参数:无(4)查询评论列表API地址:/comment/list请求方法:GET请求参数:ID:的ID。

    1.8K30编辑于 2023-03-22
  • 来自专栏机器学习AI算法工程

    新浪爬虫

    不光如此,因为有些用户的简介里有一些特殊符号,®或者笑脸之类的,于是在这里纠结了很久,好歹最后是成功了(其实也就是过滤掉了那些特殊符号) 效率来说呢,开始的时候一个小时能采集大概1.4w条的用户信息 ,但是由于我是从每个人的关注列表里采集的,所以很快就会遇到爬到许多已经爬过的用户,所以总的来说效率不是很高,怪不得那个“中国爬盟”要发动群众的力量去爬 而且有些担心爬久了账号被封,我也没敢尝试太久

    1.1K40发布于 2018-03-12
  • 来自专栏微博采集

    爬虫软件】用python开发的批量采集帖子下的评论

    大家好,今天给大家介绍一款我原创开发的评论采集工具。这款工具能够帮助我们从平台上批量采集评论数据,对于社会学和传播学的研究具有重要价值。 评论区是用户公开表达观点的重要场域,通过采集评论区的数据,我们可以实时追踪情绪倾向、挖掘公众诉求、捕捉热点趋势、构建群体画像等。二、软件介绍软件界面友好、操作简便,目前已升级至v1.2版。 csv含14个字段,包括链接、id、页码、评论者昵称、评论者粉丝数、评论者关注数、评论者主页链接、评论者性别、评论者签名、评论时间、点赞数、评论内容IP属地、评论级别、评论内容2.3日志记录爬取过程中有 csv文件:展开代码语言:PythonAI代码解释#保存数据df=pd.DataFrame({'链接':weibo_url,'id':weibo_id,'页码':page,'评论者昵称':screen_name_list 获取cookie值的步骤如下:打开网页版,登录自己的账号。按F12打开开发者工具,选择“Network”选项卡。刷新页面,找到请求数据的接口。

    30910编辑于 2025-12-02
  • 来自专栏IT民工的代码世界

    Java网络爬虫抓取新浪个人记录

    在正题之前,先了解一下java下抓取网页上特定内容的方法,也就是所谓的网络爬虫,在本文中只会涉及简单的文字信息与链接爬取。 接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门 ,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。 在网上找了好久使用webcontroller这个开源的爬虫框架,访问很简便,效率也高,那记下来我们就看看如何使用这个框架。 weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪的cookie,这个方法针对weibo.cn

    1.3K40编辑于 2023-07-19
  • 来自专栏二爷记

    爬虫,python用户主页小姐姐图片内容采集爬虫

    python爬虫爬虫,需要知晓用户id号,能够通过抓取用户主页内容来获取用户发表的内容,时间,点赞数,转发数等数据,当然以上都是本渣渣结合网上代码抄抄改改获取的! ? 要抓取的地址:https://weibo.com/u/5118612601 BUT,我们实际应用的抓取地址:https://m.weibo.cn/u/5118612601(移动端的地址) ? ----" + "\n") fh.write(f"地址: {str(scheme)}\n内容:{raw_text}\n" 手里头有二份爬虫的源码,不同的爬取地址和思路,一起分享给大家,仅供参考学习! 一份还包含GUI界面,当然这是本渣渣参考的主要来源代码! ? 亲测可运行哈!! 关注本渣渣信公众号:二爷记 ? 后台回复关键字:“爬虫” 获取所有源码

    1.4K20发布于 2020-12-11
  • 来自专栏九陌斋

    根据话题爬取评论

    思路阐述 获取 weibo.com获取url、用户名称以及内容等信息 进一步根据用户名称在weibo.com中进行用户url获取 根据构建的用户url在weibo.cn中爬取发布者的信息 评论获取 根据上面获取的标识,构建weibo.cn中对应的地址 根据正则表达式获取评论内容 完整代码 # -*- coding: utf-8 -*- # @Time : 2021/12/ card-wrap"][' + str(i) + ']/div[@class="card"]/div[1]/div[2]/div[1]/div[2]/a')[0].text # = 0: print('正在爬取第',page,'页,第',i,'条评论。') ', '关注数', '粉丝数', '评论内容', '评论时间', '点赞次数']) getTopic(url) #去话题页获取 详细讲解 更多详细的内容记录在CSDN平台上了:https:

    67820编辑于 2022-12-26
领券