首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据

    爬虫

    全文简介 本文是用Python爬取移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。 至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧! 环境介绍 Python3 Windows-10-64位 移动端 网页分析 以获取评论信息为例(你可以以自己的喜好获得其他数据)。

    1.8K50发布于 2018-01-18
  • 来自专栏葫芦

    python 新浪爬虫

    /0070m4EAly8fpp1pwqq26j3050050jrb.jpg 是否认证:False 说明:知名财经主 头条文章作者 签约自媒体 关注人数:3301 粉丝数:111 性别:m 等级 :11 -----正在爬取第1页,第0条------ -----正在爬取第1页,第1条------ -----正在爬取第1页,第2条------ -----正在爬取第1页,第3条--- --- -----正在爬取第1页,第4条------ -----正在爬取第1页,第5条------ -----正在爬取第1页,第6条------ -----正在爬取第1页,第7条---- -- -----正在爬取第1页,第8条------ -----正在爬取第2页,第0条------ -----正在爬取第2页,第1条------ -----正在爬取第2页,第2条----- - -----正在爬取第2页,第3条------ """ """ ----第1页,第0条---- 地址:https://m.weibo.cn/status/GyHojrupo?

    1.8K40发布于 2019-04-17
  • 来自专栏月小水长

    位置爬虫发布

    数据分析经常需要和地理位置相关联,比如查看某一话题爬虫下发人员地理分布,或者用户爬虫下某人轨迹分布,等等;而这次的位置爬虫则是直接以位置为切入点爬取,只需要输入一个地名,就能抓取在该地点发过的具体信息 这个位置爬虫的结果可以和用户信息爬虫联动,比如有这样一个分析任务:去北京环球影城的人,都发了什么,男生多还是女生多,年龄群体分布怎么样,等等。 都可以先用这个位置爬虫,爬完后的 csv 交给用户信息爬虫处理。 闲话不多说,首先在本号(月小水长)后台回复关键词 位置爬虫 获取 pyd 文件(only for python3.6 64 bit),然后在新建一个 py 文件,引用这个 pyd 文件 from WeiboLocationSpider ,这样就能爬到更多的位置数据。

    93320发布于 2021-09-24
  • 来自专栏机器学习AI算法工程

    新浪爬虫

    不光如此,因为有些用户的简介里有一些特殊符号,®或者笑脸之类的,于是在这里纠结了很久,好歹最后是成功了(其实也就是过滤掉了那些特殊符号) 效率来说呢,开始的时候一个小时能采集大概1.4w条的用户信息 ,但是由于我是从每个人的关注列表里采集的,所以很快就会遇到爬到许多已经爬过的用户,所以总的来说效率不是很高,怪不得那个“中国爬盟”要发动群众的力量去爬 而且有些担心爬久了账号被封,我也没敢尝试太久

    1.1K40发布于 2018-03-12
  • 来自专栏用户5305560的专栏

    爬虫】新浪爬虫——环境部署

    1.先安装Python环境,作者是Python 2.7.8 2.再安装PIP或者easy_install 3.通过命令pip install selenium安装selenium,它是自动测试、爬虫的工具 4.然后修改代码中的用户名和密码,填写你自己的用户名和密码 5.运行程序,自动调用Firefox浏览器登陆 注意:手机端信息更加精致简单,而且没有动态加载的一些限制,但是如或粉丝id只显示 20页,这是它的缺点; 而客户端可能存在动态加载,如评论和,但是它的信息更加完整。 _1.txt 输出: 信息及用户基本信息 SinaWeibo_Info_best_1.txt Megry_Result_Best.py 该文件用户整理某一天的用户信息,如2016年4月23 日 [源码] 爬取客户端信息 爬取客户端信息,但是评论是动态加载,还在研究中 weibo_spider2.py

    42210发布于 2021-12-02
  • 来自专栏IT民工的代码世界

    Java网络爬虫抓取新浪个人记录

    在正题之前,先了解一下java下抓取网页上特定内容的方法,也就是所谓的网络爬虫,在本文中只会涉及简单的文字信息与链接爬取。 接下来就是新浪的抓取,一般的http访问新浪网站得到的html都是很简略的,因为新浪主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功,所以为了数据抓取的简便,我们走一个后门 ,也就是访问新浪的手机端,weibo.cn进行抓取,但随之而来的一个问题是,新浪的访问不管哪一端都需要强制的登陆验证,所以我们需要在http请求的时候附带一个cookie进行用户验证。 在网上找了好久使用webcontroller这个开源的爬虫框架,访问很简便,效率也高,那记下来我们就看看如何使用这个框架。 weibo.cn的cookie * @author hu */ public class WeiboCN { /** * 获取新浪的cookie,这个方法针对weibo.cn

    1.2K40编辑于 2023-07-19
  • 来自专栏二爷记

    爬虫,python用户主页小姐姐图片内容采集爬虫

    python爬虫爬虫,需要知晓用户id号,能够通过抓取用户主页内容来获取用户发表的内容,时间,点赞数,转发数等数据,当然以上都是本渣渣结合网上代码抄抄改改获取的! ? 要抓取的地址:https://weibo.com/u/5118612601 BUT,我们实际应用的抓取地址:https://m.weibo.cn/u/5118612601(移动端的地址) ? ----" + "\n") fh.write(f"地址: {str(scheme)}\n内容:{raw_text}\n" 手里头有二份爬虫的源码,不同的爬取地址和思路,一起分享给大家,仅供参考学习! 一份还包含GUI界面,当然这是本渣渣参考的主要来源代码! ? 亲测可运行哈!! 关注本渣渣信公众号:二爷记 ? 后台回复关键字:“爬虫” 获取所有源码

    1.4K20发布于 2020-12-11
  • 来自专栏IT 茂茂

    Python爬虫 抓取评论

    .decode("utf-8") # 预登陆获得 servertime, nonce, pubkey, rsakv def get_server_data(self, su): """与原来的相比,的登录从 注册的手机号) password = "123456" # 密码 cookie_path = "Cookie.txt" # 保存cookie 的文件名称 id = '4477416430959369' # 爬取的 ', 'username', 'following', 'followed', 'gender']) start_crawl(get_cookies(), id) 第八步:获取id 你需要获得想要找的 首先找到你想爬的,这里以故事为例,在浏览器内按下F12,并且点击评论按钮 点击‘网络’,找到一条像图中的get请求。 .decode("utf-8") # 预登陆获得 servertime, nonce, pubkey, rsakv def get_server_data(self, su): """与原来的相比,的登录从

    2.1K20编辑于 2022-05-11
  • 来自专栏机器学习AI算法工程

    python模拟新浪登陆功能(新浪爬虫)

    (Python) PC 登录新浪时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。 由于要用的一部分数据用API获取不方便, 所以还是要自己写个小爬虫, 模拟登录是必不可少的。琢磨了一下这个东西,最终登录成功。 接下来再请求这个URL,这样就成功登录到了。 记得要提前build 缓存。 下面是完整代码(没加注释,凑合看吧): #! 很多豆友反馈有模拟登录新浪抓取数据的需求,其实对于一般的数据获取,如用户信息、内容等,使用开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。 熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪以实现模拟登录。

    3.7K60发布于 2018-03-13
  • 来自专栏Python中文社区

    Python移动端爬虫实例

    ❈ 本文简要讲述用Python爬取移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。 至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧! 环境介绍 Python3/Windows-10-64位/移动端 网页分析 以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图: ?

    1.1K50发布于 2018-02-01
  • 来自专栏企鹅号快讯

    Python移动端爬虫实例

    ❈ 本文简要讲述用Python爬取移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。 至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧! 环境介绍 Python3/Windows-10-64位/移动端 网页分析 以获取评论信息为例(你可以以自己的喜好获得其他数据)。

    1.1K90发布于 2018-01-09
  • 来自专栏coding

    python爬虫抓取新浪数据

    需求分析 抓取 琢磨先生的新浪 ? 主页 抓取的内容包括:发布的时间,正文(仅提取文字),转发数,评论数,点赞数 ? 抓取的内容 数据是怎么加载的 新浪的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉到相应的请求: ? 格陵兰', 'attitudes': 35, 'comments': 18, 'reposts': 1} {'id': '4276459473976711', 'text': '北极 视频', 'attitudes

    7.5K50发布于 2018-09-26
  • 来自专栏月小水长

    全站爬虫修复更新啦!!!

    说在前面的话 距离开源全站爬虫过去已经快半个月了,陆陆续续收到了一些粉丝们的反馈,包括如何获取 cookies 和 主题爬虫模块失效了,以至于后来整个爬虫失效, ? 说一声抱歉,当时那段时间我实在太忙,就没有立刻解决,但是记在备忘录上,但是今天下午终于可以有空闲了,就着手解决了这个问题;问题主要是由接口和网页结构的变化引起的,现将有关修改过程及结果修改如下;同时会详介绍如何获取 主题模块接口变化 原来的接口是 res = requests.get(url='https://weibo.cn/search/mblog? 如何获取 cookies cookies 是什么,这里不引经据典了,一句话,cookies 是客户机(也就是你的 Chrome、FireFox 等浏览器)维持会话状态的一段字符串信息,就应用了这种技术 打开登陆首页 https://passport.weibo.cn/signin/login?

    77020发布于 2019-12-04
  • 来自专栏月小水长

    超话爬虫,它来了

    这是 月小水长 的第 119 篇原创干货 as we all known,有关键词,话题和超话之分。 在 2021 新版话题爬虫发布 中的新版话题爬虫,把 keyword 设置成 buyixiao 就能抓取关键词,设置成 #buyixiao# 就能抓取话题。 超话,意即超级话题,又不等同于一般的话题,它具有独立的页面地址和样式,但是依然可以用 2021 新版话题爬虫发布 里面的话题爬虫抓取。 包含 id、用户 id、内容、链接,用户名、用户链接、图片(s)链接,转评赞数等十余字段。 https://buyixiao.github.io/blog/weibo-super-spider.html 总结下,就是使用话题爬虫就能抓取超话, keyword 设置时加个超话即可。

    2.6K20编辑于 2022-04-01
  • 来自专栏月小水长

    免 cookie 话题爬虫发布

    免 cookie cn 话题爬虫 大家好,我是刚下班的并更新了话题爬虫的月小水长。 com 话题爬虫 BugFix 其次是更新了 WeiboCom 话题爬虫的 bug,这周刚发布 2021 爬虫更新及使用指南 ,有读者留言反馈了以下的 bug 现今暂时修复,但是爬虫不会自动停下来了 修复的爬虫文件,获取方式依然在 2021 新版话题爬虫发布,回复同样的口令即可获取更新。 ; 但是缺点也很明显,不支持高级搜索; weibo.com 的好处是筛选条件更加丰富,时间段颗粒度更细,最细达到了以小时为单位; 缺点是需要经常手动更换 cookie; 这里给新开的信小店留个位置 ,感兴趣的可以看看~ 谢谢大家关注,爬虫将持续更新,明早或周一更新用户信息爬虫~

    73920发布于 2021-09-24
  • 来自专栏Python中文社区

    爬虫开源项目汇总大全

    - [SinaSpider][1] - 基于scrapy和redis的分布式微爬虫。SinaSpider主要爬取新浪的个人信息、数据、关注和粉丝。 爬虫框架使用Scrapy,使用scrapy_redis和Redis实现分布式。此项目实现将单机的新浪爬虫重构成分布式爬虫。 ? - [sina_reptile][2] -这是一个关于sina爬虫,采用python开发,并修改了其sdk中的bug,采用mongodb存储,实现了多进程爬取任务。 - [sina_weibo_crawler][3]-基于urlib2及beautifulSoup实现的爬虫系统。 - [sina-weibo-crawler][4]-方便扩展的新浪爬虫

    1.5K80发布于 2018-01-31
  • 来自专栏萌海无涯

    基于selenium写爬虫(待续)

    sudaref=security.weibo.com': print("登录成功") 手机,是往下滑动翻页,我们用js代码来实现 # 翻页操作js="var q=document.documentElement.scrollTop

    86830发布于 2019-08-03
  • 来自专栏月小水长

    爬虫综述、错误汇总、Q&A

    爬虫综述 爬虫 Github 地址是 https://github.com/Python3Spiders/WeiboSuperSpider ,请不要利用该爬虫项目获得的数据作任何违法用途。 爬虫主要有两个导向,一个是内容的爬虫,其目的字段包括文本、发布者、转发/评论/点赞数等,另一个是评论的爬虫,其目的字段主要是评论文本和评论者。 无论是用户,还是话题爬虫,都有 50 页左右的限制。 爬取了之后,我们可以使用 WeiboCommentScrapy.py 爬取指定的评论,怎么指定,参考下图 ? 注意 weibo.cn 站的 id 是类似 IjEDU1q3w 这种格式,和后面的 m.weibo.cn 的 id 格式不同(它的纯数字,比较长),该评论爬虫只能爬取前 100 页的。 用户/话题/评论 爬虫的数据依次保存在 user/topic/comment 文件夹下的 csv 文件中。

    1.6K30发布于 2020-03-19
  • 来自专栏机器学习AI算法工程

    python爬虫,每日百万级数据

    当然例子还有很多,那么,首先,要有数据! 所以,就产生了众多的爬虫项目。后来,新浪也开放了的API接口,但是官方的东西,限制还是很多的。 我整理的在这里:User-Agent池 本文源码地址: 关注信公众号datayx 然后回复“”即可获取。 充足的账号 爬虫,必须登录以后,才能抓取。 这时候,就需要一个勤劳的爬虫,24小时不间断的爬数据! 所以当然是需要部署在服务器上! 爬虫策略 登录 登录一直是一个很复杂的问题,不过,我们可以通过selenium来简化这个问题。 这样就可以形成以种子用户为核心,逐层向外扩散的爬虫辐射。 理论上,只要一小批种子用户启动,就可以爬取全网的! 运行爬虫 克隆代码到服务器中,安装依赖,并执行 nohup python run.py 就已经开始不停的爬取了! 通过命令:tail -10 weibo.log 查看最新的日志。 ?

    1.5K10发布于 2019-10-28
  • 来自专栏Python中文社区

    Python爬虫评论爬取

    專 欄 ❈ 罗罗攀,Python中文社区专栏作者 专栏地址: http://www.jianshu.com/u/9104ebf5e177 ❈ 提交Cookie信息模拟登录 需要爬取登录之后的信息 ,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录,首先,我们找到某明星的网址:http://m.weibo.cn/u/1732927460 这里是登录的移动端 ,你会发现,你点击网址会自动跳转到登录的界面(没有跳转的注销掉自己的账号),如下图所示: ? 然后登录自己的账号密码,这时记得打开Fiddler进行抓包,如图所示,提取Cookie做为请求某明星网址的请求头即可。 ? 异步加载数据如何爬取 我在网上看过移动端的数据很好爬,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条和评论的js包。

    1.4K60发布于 2018-02-01
领券