首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏python知识

    爬虫

    流程图 请求https://www.zhihu.com获取页面中的_xsrf数据,开启了跨站请求伪造功能,所有的POST请求都必须带上此参数。 爬虫框架从start_requests开始执行,此部分会提交主页的访问请求给引擎,并设置回调函数为post_login. post_login解析主页获取_xsrf保存为成员变量中,并提交登陆的POST

    7.7K20发布于 2021-05-21
  • 来自专栏小怪聊职场

    爬虫课程(十一)|:使用Scrapy模拟登录

    接下来的文章我将以爬取问答内容为例来讲解如何使用Scrapy进行模拟登陆。 一、分析登录的请求api 我们先进入的登录页面,输入用户名和密码(为了查看登录时请求的api信息,我这里故意把密码输错),点击登录,查看右边Network信息。 ? 登录 通过Network截取到使用email登录(见下图1)时的请求api为https://www.zhihu.com/login/email(见下图2),请求需要的From Data为_xsrf、 登录需要的值 通过对登录需要提交的From Data信息进行分析得知只有_xsrf这个参数的值是需要动态获取,并且是从上一个页面(https://www.zhihu.com/#signin)进行获取过来的 二、实现登录的代码 ? 代码1 ? 代码2

    1.8K60发布于 2018-05-21
  • 来自专栏全栈程序员必看

    登陆

    登陆 @(博客)[Python, 登陆, , 爬虫] 登陆 背景 题外话 环境 寻找切入点 问题的转移1 问题的转移2 继续撸 开始代码 完善代码 018.8.12 背景 因为学年综合实践准备的一部分需要爬取全站 而由于许多学习爬虫的各友,都爱拿练手——其实我倒非然,这算是第一次对“开战”,是客观因素导致的必然——以至于加强了反扒机制 我爬虫经验有限,实在不知该对这样的加密如何下手,一番搜索引擎之后 里边的study文件是我整个思考过程中产生的测试代码,如果只是需要实现登陆,则study文件可以直接删除 环境 (1)python3.6 (2)主要第三方库: – requests – https://pypi.douban.com/simple/ pillow 利用豆瓣源,加快下载速度,因为直接安装可能会出现timeout的错误 (3)chrome 寻找切入点 第一步肯定是先来到提供二维码登陆的界面 可以看到距离首页文件最近的一个scan_info文件,说了要设置z_c0 于是在我们扫描二维码之后,应该先请求这个文件,再请求首页文件;查看请求的url,也能发现,这个文件也有一部分是动态的

    2.2K30编辑于 2022-09-20
  • 来自专栏二进制文集

    Java 爬虫

    目标 爬取用户信息,并作简要分析。 基于 Java 的 webmagic,开发极其简单,这个爬虫的代码主体就几行,而且只要专注提取数据就行了(其实是因为我也不知道其它 Java 的爬虫框架)。 代理 IP 没有使用代理 IP,经测试开20个线程爬会被封IP,我就开了3个线程。 爬取速度 30小时爬取了3w用户(关注者数量≥10的用户),确实慢了点(部分原因是的网站结构,下面分析)。 分析的网站结构 以一个我关注的大佬为例,url 是:https://www.zhihu.com/people/warfalcon/answers ? 用户高校排名 ? 城市排名 ? 代码 pom 文件 需要爬虫框架 webmagic。

    1.6K40发布于 2018-10-08
  • 来自专栏MixLab科技+设计实验室

    AI版

    有没有想过在上提问,不是人来回答你的问题,而是机器来回答? 这篇文章介绍一个实现思路,利用技术大批量回答「」上的问题。 趁今天周五,我忙里偷闲,写了几行代码,完成了一个答题AI。 ps:关心的话题是有数量限制的,后续可以再写个代码,批量去掉关心的子话题。 STEP 02 获取推荐问题 批量获取推荐的问题,在开发者工具console面板,注入以下代码: //获取推荐的问题 async function postData(_limit = 100) STEP04 人机协作 这时候,我们只需要挑选感兴趣的问题,稍微修改下,就可以回答啦~ 这里为了节省时间,我稍微修改了下以上的代码,把问题的url,也保留了下来,方便点击链接直接复制答案,跳转到去回答问题

    1.2K30发布于 2019-06-26
  • 问题代码

    # -*- coding: utf-8 -*- """ Created on Sat May 19 18:44:40 2018 @author: John Kwok """ # import import numpy as np import tensorflow as tf import GetDataUtil # 数据读取及预处理 ''' 定义超参 ''' BATCH_SIZE = 128 # 批大小 EPOCH = 5 # 训练EPOCH次数 HIDDEN_UNIT = 512 KERNEL_S

    1.2K20发布于 2018-08-01
  • 来自专栏陶士涵的菜地

    学习反射

    :学习java应该如何理解反射? 余晖: 反射提供了一种运行期获取对象元信息的手段。写框架代码用的比较多,因为需要运行时动态获取和操作对象的属性和方法。 尽量少用反射,会有性能开销,大多数场景下可以用设计模式代替 :Java 反射到底慢在哪里? 松鼠奥利奥: 对于 Java 的依赖注入容器而言,反射慢在把装载期做的事情搬到了运行期。 :大型多人项目中使用反射机制有什么利弊? vczh: 反射是用来做library的,不是用来做业务的。程序员就是控制不住自己啊,东西放在那里就一定要用,不然就手痒。

    1.1K20发布于 2019-09-10
  • 来自专栏python爬虫实战之路

    模拟登陆

    今天先从开始。 Charles系统环境:Mac浏览器:Chrome 抓包 首先进行网站登录抓包,打开Chrome浏览器无痕窗口,然后清空所有缓存,打开Charles,在Chrome浏览器地址栏输入www.zhihu.com,打开登录界面 图4 登录请求一般是POST,这个很少有例外,有些网站一般会是第一个post请求,可是的post请求有点颇多,这个请求中有username和password,那我们就以这里为基准开始分析。 print(result.get("error").get("message")) return captcha 发送登录请求 访问个人中心 代码放在我的GitHub上:模拟登录

    2.4K30发布于 2018-08-21
  • 来自专栏Crossin的编程教室

    揭秘大V

    ,可以说是国内目前最大的问答类社区。与微博、贴吧等产品不同,上面的内容更多是用户针对特定的问题分享知识、经验和见解。咱们编程教室就有不少读者是从上了解到我们的。 那么,上都有哪些“大V”用户?普通用户喜欢关注哪方面内容?我们利用 Python 对上的部分信息进行了个采集,做了一份简单的统计。 大V的关联 首先给大家看的是上粉丝数前50用户的关系图: ? ? ? 图中的线是用户之间的相互关注的关系。 于2010年12月20日上线,到今年7月31日共3145天,轮子哥vzch平均每天要回答7个问题以上(怀疑给他发工资的是微软还是……),而太平洋电脑网则平均每天发表12.8篇文章,真是有够努力! 以上就是我们对于公开数据做的一些分析。

    1.6K20发布于 2019-11-22
  • 来自专栏猫头虎博客专区

    “阅读全文强制登录”引发用户不满,你平常用吗?

    文章目录 “阅读全文强制登录”引发用户不满,你平常用吗? 强制登录与下载App:用户体验的新挑战 大平台的责任与用户体验的平衡 期望:以内容质量为核心,远离“流氓操作” “阅读全文强制登录”引发用户不满,你平常用吗? 例如,尝试查看下面这篇文章时,如果你没有登录,点击“展开阅读全文”就会弹出登录窗口,无法继续阅读。 然而,在手机网页端,这种限制尚未施行,或许还没有对手机端进行同样的操作。 作为国内知名的问答社区,截至2023年12月31日,累计拥有7130万名内容创作者,同比增长13.0%。每月的活跃用户也接近一个亿,已经跻身国内同行业的前几名。 在收益方面,表现也不俗。 这些数据展示了在过去几年中的显著增长以及财务表现的改善,希望未来能够继续以高质量内容吸引用户,提升用户体验。

    6.9K50编辑于 2024-05-31
  • 来自专栏用户2442861的专栏

    几条不错的想法

    作者:大狐狸 链接:https://www.zhihu.com/question/36426051/answer/76031743 来源: 著作权归作者所有。 永远别小看程序媛(╯3╰)  作者:司马奔腾 链接:https://www.zhihu.com/question/36426051/answer/82579790 来源: 著作权归作者所有。 作者:鲁小夫 链接:https://www.zhihu.com/question/36426051/answer/67423215 来源: 著作权归作者所有。

    1.6K10发布于 2018-09-19
  • 来自专栏全栈程序员必看

    cookie登录「建议收藏」

    用cookie登录个人主页 ---- 步骤: 1、用自己账号登录,然后复制下来自己的cookie信息。 2、用request.get(url,headers=headers)把cookie传入get请求中 3、用BeautifulSoup匹配内容 一、用自己账号登录,获取自己的cookie信息。 BeautifulSoup(res.text,'html.parser') # 获取返回html html.find_all('title')[0].string >>> '田埂上的python -

    2.1K20编辑于 2022-07-22
  • 来自专栏终身学习流浪地

    pyquery爬取发现

    join([question, author, answer])) file.write('\n' + '='*50 + '\n') file.close() 是的,崔大佬书上的例子,但是因为更改网页标题

    83020编辑于 2022-02-22
  • 来自专栏Spark学习技巧

    数据埋点方案

    目前的埋点流程如下图所示。 回顾埋点流程的迭代史,整个流程落地三部曲可以总结为六个字:能力、意愿、工具。 能力 这几年的业务发展很快,埋点的流程也随着迭代了很多个版本。 目前对于这个问题,目前没有做统一,由业务自己来定义。 行为事件 对于行为事件,选择了事件模型,完整描述 Who、When、Where、How 和 What 五大要素。 的数据团队在 2016 年做了一个埋点的小工具,只要输入测试设备的 id,就可以查看对应的埋点信息。 的做法是将 H5 的日志发送给客户端,由客户端处理后发送给日志接收服务。 随着的快速发展,业务越来越多,的埋点模型、流程和平台技术在不断迭代当中,在应用实践上还有很大的改进的空间。

    7.5K45发布于 2018-12-11
  • 来自专栏全栈程序员必看

    免登录插件2021

    在电脑中使用过网页版的小伙伴们应该都知道,在使用前是必须进行登录的,为此小编就带来了免登录插件2021,这是专门针对登录问题而打造的一个浏览器插件脚本工具。 免登陆脚本使用教程 1、下载并进行解压后即可获得油猴、免登陆脚本、美化脚本。 5、同时最好吧美化脚本也进行安装。 6、然后可控制脚本的运行状态。 7、最后就可以随意的免登录使用啦。 注意事项 如果自动跳转到登录页面,则脚本将自动转到空白搜索页。 自动关闭的登录弹窗。 插件功能 一、免登录脚本功能: 顾名思义,装上此脚本就能实现不登录也可正常使用。 二、美化功能: 第二个脚本,可对页面起到一定的美化作用。 我们先来看看的原始状态下,有哪些地方不够完美或者是直接影响使用体验的元素。

    3.7K10编辑于 2022-07-22
  • 来自专栏陶士涵的菜地

    电商设计总结

    想做一个B2B2C的电商平台,在后台数据统计搭建的时候需要注意哪些问题?如何设计具体的统计模块?

    1.6K20发布于 2019-09-10
  • 来自专栏python前行者

    怎么以markdown写作

    使用步骤 先在markdown编辑器上写好文章 复制粘贴到编辑器中 点击markdown here 插件一键转化 复制转化后的富文本到一个新的编辑器中 点击发布 参考:https://blog.csdn.net

    1.7K50发布于 2019-03-25
  • 来自专栏陶士涵的菜地

    学习工厂模式

    简单工厂模式相当于是一个工厂中有各种产品,创建在一个类中,客户无需知道具体产品的名称,只需要知道产品类所对应的参数即可。但是工厂的职责过重,而且当类型过多时不利于系统的扩展维护。

    71740发布于 2019-09-10
  • 来自专栏即时通讯技术

    技术分享:千万级并发的高性能长连接网关技术实践

    本文来自知官方技术团队的“技术专栏”,感谢原作者faceair的无私分享。 长连接网关致力于业务数据解耦、消息高效分发、解决容量问题,同时提供一定程度的消息可靠性保证。 假如讲师正在 Live 的 165218 频道开讲,当客户端进入房间尝试订阅 165218 频道的 Topic 时就需要 Live 的后端判断当前用户是否已经付费。 其中 Kafka 和 Redis 都是业界广泛使用的基础组件,它们在都已平台化和容器化 (详见:《Redis at Zhihu》、《基于 Kubernetes 的 Kafka 平台的设计和实现》 6、写在最后 长连接网关由基础架构组 (Infra) 开发和维护,主要贡献者是@faceair、@安江泽 。

    1.7K20发布于 2019-09-05
  • 来自专栏数据爬取

    爬取的一个思路 | 评测一款工具:想要收藏的文章,想要采集大v的文章... ...

    据软件网站介绍,该软件可以实现对 文章采集及图文下载(可下载专栏列表、文章、回答列表、单个回答、视频列表等,用于将相应的链接放在指定文本当中运行软件即可下载,下载下来的图文效果同网站。 这是下载好的文章列表 我们打开其中一篇,看到图文排版都很OK 每篇文章都在结尾处注明了文章来源,以告知版权来源 可以看到,这款软件还是很好的实现了对于不同页面复杂的页面元素的兼容,并能将网站上不必要的 软件的功能还是很强大的,能够支持不同链接的识别并正确下载。更为强大的是这个下载下来的版面格式非常符合我们阅读的版面要求,而且文中的图片和视频也都同步下载到本地,可以说是很贴心的功能了。 文章来源:想要收藏的文章,想要采集大v的文章,给大家分享一个这款专门采集与下载的工具 (qq.com)

    1.8K20编辑于 2022-11-11
领券