首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据魔术师

    如何评论

    数据 是的,今天,我们就来一下评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何数据。 Tip:准备工作 ? 首先,我们需要找到一个待主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。 接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。 我们的工作是对评论进行,点击“下一页”,可见评论页数高达28514页,看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为: https://weibo.cn/comment/HASs7tfjN uid=3952070245&rl=0&page=3 网址最后的数字代表了页数,这也就为我们的评论提供了基础! Tip:算法 ? 算法介绍:Requests算法 1. 总结 这次我们只介绍了新浪移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着网页端或者手机端的数据哦~我们下期再见!

    2.2K40发布于 2019-07-10
  • 来自专栏九陌斋

    根据话题评论

    思路阐述 获取 weibo.com获取url、用户名称以及内容等信息 进一步根据用户名称在weibo.com中进行用户url获取 根据构建的用户url在weibo.cn中发布者的信息 评论获取 根据上面获取的标识,构建weibo.cn中对应的地址 根据正则表达式获取评论内容 完整代码 # -*- coding: utf-8 -*- # @Time : 2021/12/ = 0: print('正在第',page,'页,第',i,'条评论。') '='*40,pageA,'='*40) except: print('没有下一页') break print("#"*20,'评论结束 ,下面开始评论人信息',"#"*20) print(len(like_times),len(count),len(date),len(user_url),len(user_name))

    67520编辑于 2022-12-26
  • 来自专栏Python中文社区

    Python爬虫之评论

    專 欄 ❈ 罗罗攀,Python中文社区专栏作者 专栏地址: http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟登录 需要登录之后的信息 ,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录,首先,我们找到某明星的网址:http://m.weibo.cn/u/1732927460 这里是登录的移动端 ,你会发现,你点击网址会自动跳转到登录的界面(没有跳转的注销掉自己的账号),如下图所示: ? 异步加载数据如何 我在网上看过移动端的数据很好,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条评论的js包。 我们只需请求这个js数据,然后利用json库即可提取我们所需的评论数据。 ? ? 代码 ? 的数据导入数据库后又导出为csv格式进行分析 词云制作及分析 ?

    1.4K60发布于 2018-02-01
  • 来自专栏木下学Python

    热搜评论生成词云

    前言 博大家都很熟悉了,时不时就谁谁上了热搜,底下评论什么都有,我们想获得评论信息做个简单的分析,可以用爬虫,但花费的时间可能有点多,还会面临反给我们开了 api 接口,我们可以调用方便的获取数据 ,带来了不少便利,小编带大家来评论内容 api 配置 https://open.weibo.com/ 打开,注册一个账号,按照下列序号新建应用,完善基本信息 点击【我的应用】,完善基本信息 完善后的样子 文档查看 我们点击【文档】,找到评论接口,我们选择【获取某条评论】 ? 点开文档后,里面都有详细参数,我们只需要评论的数据,还有其它的数据,用户 id,地区等数据,你可以自制选择玩出你的花样 ? 怎么接入授权数据文档也有 ? 打开一条,找到它的 id,一般就是 url 后面那串数字 ? 接下来写逻辑,其中画线的是接入方法,id 是刚刚的 id,count 设置一页获得数量,默认50 ?

    4.8K50发布于 2019-12-18
  • 来自专栏Python研究者

    pyhton爱豆(李易峰)评论

    今日目标:,以李易峰的为例: https://weibo.com/liyifeng2007? print(real_id,filename) 输出如下: [format,png] 第一个就是我们需要的ID,后面则是发的时间,我们用它来做存储评论数据的文件名称。 id={real_id}&page=1' res = requests.get(comment_url,headers=headers).json()["data"]["html"] # 提取评论人和评论内容 page}' res = requests.get(comment_url,headers=headers).json()["data"]["html"] # 提取评论人和评论内容 encoding="utf-8") as f: f.write(each) f.write("\n") 只是测试,所以就只了十几页

    69520发布于 2021-06-29
  • 来自专栏爱写Bug

    围观网友发起的美胸比赛学习评论内容

    ------ 首先进入开发者工具看一下结构: [weibocom.png] 这只是一小部分,评论用户发的页面,里面都是以html5格式传到本地的,把内容格式化之后就会发现,层级非常复杂 于是去网上搜一下,搜索结果都是前两年的方法,那时候还是用 ajax 以 json 格式传递,现在明显已经不是。 另外的反措施很强,真的恶心到我了,如果有大规模需求,建议去淘宝买号,建 Cookie池,或者用代理池不停地切换访问主机。如果只用自己电脑本地Cookie,那就把请求头弄全,并限制抓取速度。 也就是往下翻看评论,每次显示十条,并在这次所看的评论里就传回 下十条评论 的最后一条评论的唯一 ID,是根据这个 ID 传回下十条内容。 这也就直接限制了每次评论、二级评论时只能一次获取十条,也无法利用线程池加速,因为只有获取了这十条才知道下十条请求地址里 max_id 的值。

    2.1K70发布于 2019-07-15
  • 来自专栏Python研究者

    pyhton爱豆(李易峰)评论(附源码)

    今日目标: 以李易峰的为例: https://weibo.com/liyifeng2007? print(real_id,filename) 输出如下: 第一个就是我们需要的ID,后面则是发的时间,我们用它来做存储评论数据的文件名称。 =6&id={real_id}&page=1' res = requests.get(comment_url,headers=headers).json()["data"]["html"] # 提取评论人和评论内容 {page}' res = requests.get(comment_url,headers=headers).json()["data"]["html"] # 提取评论人和评论内容 ,"a",encoding="utf-8") as f: f.write(each) f.write("\n") 只是测试,所以就只了十几页

    1.7K20发布于 2020-11-24
  • 来自专栏程序猿声

    10分钟教你用Python评论

    数据 是的,今天,我们就来一下评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何数据。 Tip:准备工作 ? 首先,我们需要找到一个待主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。 接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。 我们的工作是对评论进行,点击“下一页”,可见评论页数高达28514页,看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为: https://weibo.cn/comment/HASs7tfjN uid=3952070245&rl=0&page=3 网址最后的数字代表了页数,这也就为我们的评论提供了基础! Tip:算法 ? 算法介绍:Requests算法 1. 总结 这次我们只介绍了新浪移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着网页端或者手机端的数据哦~我们下期再见!

    7.2K50发布于 2019-07-10
  • 来自专栏数据爬取

    爬虫 | 评论取下载,同步获取一二级评论

    今天给大家分享一款简单到有点简陋的评论专门的取下载小工具。很多同学写论文、自媒创作想要从上去一些素材,总是感到力不从心,有了这款小工具,相信以后就再也不用发愁了。 言归正传,下面我们就来看看这款小工具:简单或者说简陋的界面我们先打开更新cookie的教程链接,更新一下软件目录下的weibo_cookie,因为是需要登录后才可以显示更多内容的。 所以这个登录信息必须要提前做,不然将只能查看一页也就是只能采集到一页的评论内容。 cookie文件cookie值要复制到文件当中,过期了要更新一下这个Mid,也就是文采集表格当中的这列字段,对应后面的评论数,我们随便找一个。复制一下,粘贴到软件当中,回车,软件就自动运行了。 导出的文件发现一级及二级评论均已经在表格当中了,字段包括评论数,点赞数,评论内容、评论用户、时间等。

    2.1K50编辑于 2022-11-14
  • 来自专栏java初学

    python — selenium指数

    ---恢复内容开始--- 需要用到的工具:python(pymouse、selenium)、chrome、webdriver 使用的webdriver一定要和chrome的版本相匹配,具体的对应关系可

    1.2K120发布于 2018-05-14
  • 来自专栏python进阶学习

    使用Python表情包

    表情包是大家聊天的时候的必备,之前在知乎上取了一些表情包,但是已经用的久了该换新的了,所以我们再通过爬虫技术去一波表情包吧。 本来这个爬虫是想作为讲python异步爬虫的一个例子的,昨天代码写完测试了一下,结果是我账号和ip都直接被封了,然后我去搜了一下别人写的异步爬虫教程,测试用的都是些没啥反措施的小网站。 于是今天改了下代码,就先整个普普通通的小爬虫算了。鉴于之前IP被封,所以这次在在访问的时候我加上了代理。关于选择代理也是让人很烦恼的事,网上的代理太多了,靠谱的太少。 StreamReader(response.GetResponseStream(), Encoding.UTF8)) { string htmlStr = sr.ReadToEnd(); 访问除了像代理和一些反机制需要我们做好以外并没有什么难度 ,到此这篇关于Python模拟登录表情包的文章就介绍到这了,大家有哪些意见可以发出来一起交流交流。

    1.4K20编辑于 2022-04-02
  • 来自专栏算法与数据之美

    知乎热榜

    百度有风云榜,搜狗有搜狗指数,有热搜,这些榜单都是社会当前关注的热点。今天我们就来实战一下热榜并进行定时更新。 热搜 首先,我们对热搜进行,直接打开热搜页面,并查看其网页源代码。 ? 我们可以看到每一个热搜以及对应的 href 链接都整齐的放在标签之下,我们可以选择用 BeautifulSoup 库也就是美丽汤,也可以选择使用 XPath 来进行简单的。 ? 定时 说到定时任务,我们可能会想起 Linux 中自带的 crontab ,windows 自带的任务计划,这些都可以实现定时运行程序的任务。 More 这里只叙述了数据的部分。 GitHub上有个成熟的项目,是用Go语言编写的:今日热榜,一个获取各大热门网站热门头条的聚合网站。 ? 摸鱼必备,传送门左下角。

    2.2K20发布于 2020-01-17
  • 来自专栏创作是最好的自我投资

    基于Java数据(一) 主页正文列表数据

    爬虫背景最近有这方面的需求,于是就研究了一下通过Java数据,由于本人是后端Java开发,因此没有研究其他数据的方法,比如通过Python数据。 大家感兴趣的可以自行查找基于Python数据的方法。 在数据之前,先声明一下,本人数据仅用于测试Java数据的可行性,并不会用于其他非正当地方,另外,的数据也都是每个人都可以通过博客户端正常看到的,不存在隐秘数据的情况。 爬虫分析在进行爬虫操作之前,我们先来看一下博客户端的页面结构,以及对应的请求链接,数据响应情况等,方便为后续数据做准备。 ,到这里我们数据就完成了,整个代码逻辑比较清晰,后续对于取到的数据的处理可以根据具体的业务需求。

    81510编辑于 2024-09-21
  • 来自专栏python3

    python图片数据存到Mysq

    前言   由于硬件等各种原因需要把大概170多万2t左右的图片数据存到Mysql中.之前存数据一直用的非关系型数据库mongodb,由于对Mysql的各种不熟悉,踩了无数坑,来来回回改了3天才完成 挖坑填坑之旅 建表 存数据的时候首先需要设计数据库,我准备设计了3个表 表:[id, userid, blog_text, lat, lng, created_time, reserve]   pkey pic_url, pic_bin, exif, reserve]   pkey: md5 关系表:[id, md5, reserve]   pkey: (id, md5)   fkey: (id, 表 建表的时候别的问题都还好,主要是 pic_bin 的类型和 blog_text 的类型有很大的问题,首先是pic_bin的类型,开始设置的为BLOB,但是运行之后发现BLOB最大只能存1M的数据,并不能满足图片的存储 get_info.content) info_json['uid'] = uid statuses = info_json['statuses'] # 处理筛选数据

    1.4K30发布于 2020-01-07
  • 来自专栏Hi, Python

    抓取个人 之 Ajax 数据

    版权声明:本文为主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 pq(mblog.get('text')).text() weibo.append(text + '\n\t') return weibo # 获取总页数 'a', encoding = 'utf-8') as f: for t in weibo: f.write(t) # 保存每页的数据

    70030发布于 2019-09-29
  • 来自专栏python进阶学习

    Python新浪数据快速版

    新浪的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。 没关系,现在就教大家如何批量的数据,大大加快数据迁移速度! 1、需要先获取cookie, 2、运行爬虫 运行爬虫之前先简单的进行分析,这样的网站反机制都比较严的,最近的风控更严,特别是对IP的需求更高,所以在数据之前需要加上代理池。 爬虫代理的使用之前分享过很多,这里就简单的说下,根据自己的程序设计选择使用api提取模式自己管理IP或者使用隧道转发直接进行数据都可以。这里我们选择使用后者,隧道转发的更适合业务启动和上手也快。

    84900编辑于 2023-03-28
  • 来自专栏用户画像

    订阅评论

    参考:http://open.weibo.com/wiki/%E7%A4%BA%E4%BE%8B%E4%BB%A3%E7%A0%81 开放平台给出的代码有很多bug,在此纠正 如乱码问题的解决: String

    93021发布于 2018-08-24
  • 来自专栏萝卜大杂烩

    豆瓣海王评论

    “ 最近海王大火,今天就来看看豆瓣上对于海王这个大片的评论吧” Just Do It By Yourself 01.分析页面 豆瓣的评论区如下 可以看到这里需要进行翻页处理,通过观察发现,评论的URL 02.分别获取评论 豆瓣的评论是分为三个等级的,这里分别获取,方便后面的继续分析 其实可以看到,这里的三段区别主要在请求URL那里,分别对应豆瓣的好评,一般和差评。 效果 好评 一般 差评 感觉豆瓣还是比较简单的,毕竟并没有设置什么反手段,小伙伴们也可以一起动手试试

    62220发布于 2019-07-17
  • 来自专栏cs

    淘宝评论

    文章禁止转载,违者必究 淘宝网页的评论数据动态加载的,首先要关闭adblock等屏蔽插件广告。还有我登陆了账号。 ="tb-tab-anchor" href="javascript:void(0);" hidefocus="true" shortcut-key="g c" shortcut-label="查看累计评论 image.png 通过firefox浏览器,终于找到了评论的url,如下。 ? image.png 评论的url 这几个url在html源代码中可以找到。 下面就是构造所有的url 下面是1,2页数的评论,主要currentPageNum变化。构造出需要的网站。 https://rate.taobao.com/feedRateList.htm? image.png 参考文章如下 Python爬虫 获得淘宝商品评论 Python淘宝商品详情页数据 通过Python抓取天猫评论数据 Python xlrd、xlwt 用法说明

    2.1K30发布于 2018-09-30
  • 来自专栏Python小二

    林丹和赵雅淇的评论,看看网友都说了些什么

    对于他们的内容,这里不做评价,我们使用 Python 他们所发下面的评论信息,看看网友都说了些什么。 取之前,先简单了解一下主要有如下三种展示形式: 网页版(http://weibo.com) 手机端(http://m.weibo.cn) 移动端(http://weibo.cn) 其中移动端相对容易一些 ,如下图所示: 我们点击其名进入微主页,如下图所示: 接着打开开发者工具并选择 Network,然后点击评论,如下图所示: 因为评论内容较多,查看更多内容是需要翻页的,我们将页面向下拉,可以看到翻页按钮 和 user-agent 参数,在下面的 Request Headers 中就可找到,如下图所示: 需要用的东西找齐了之后,我们就可以评论了,主要代码实现如下: # 一页评论内容 def get_one_page ,如下所示: 再来看一下用赵雅淇评论生成的词云图,如下所示: 最后,我们看一下林、赵的所有评论生成的词云图,如下所示:

    77930发布于 2020-08-18
领券