搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏python知识
知乎爬虫
流程图请求https://www.zhihu.com获取页面中的_xsrf数据，知乎开启了跨站请求伪造功能，所有的POST请求都必须带上此参数。爬虫框架从start_requests开始执行，此部分会提交知乎主页的访问请求给引擎，并设置回调函数为post_login. post_login解析主页获取_xsrf保存为成员变量中，并提交登陆的POST
7.7K20发布于 2021-05-21
来自专栏小怪聊职场
爬虫课程（十一）｜知乎：使用Scrapy模拟登录知乎
接下来的文章我将以爬取知乎问答内容为例来讲解如何使用Scrapy进行模拟登陆。一、分析知乎登录的请求api 我们先进入知乎的登录页面，输入用户名和密码（为了查看登录时请求的api信息，我这里故意把密码输错），点击登录，查看右边Network信息。 ? 知乎登录通过Network截取到使用email登录（见下图1）时的请求api为https://www.zhihu.com/login/email（见下图2），请求需要的From Data为_xsrf、知乎登录需要的值通过对知乎登录需要提交的From Data信息进行分析得知只有_xsrf这个参数的值是需要动态获取，并且是从上一个页面（https://www.zhihu.com/#signin）进行获取过来的二、实现知乎登录的代码 ? 代码1 ? 代码2
1.8K60发布于 2018-05-21
来自专栏全栈程序员必看
知乎登陆
知乎登陆 @(博客)[Python, 登陆, 知乎, 爬虫] 知乎登陆背景题外话环境寻找切入点问题的转移1 问题的转移2 继续撸开始代码完善代码 018.8.12 背景因为学年综合实践准备的一部分需要爬取知乎全站而由于许多学习爬虫的各友，都爱拿知乎练手——其实我倒非然，这算是第一次对知乎“开战”，是客观因素导致的必然——以至于知乎加强了反扒机制我爬虫经验有限，实在不知该对这样的加密如何下手，一番搜索引擎之后里边的study文件是我整个思考过程中产生的测试代码，如果只是需要实现知乎登陆，则study文件可以直接删除环境（1）python3.6 （2）主要第三方库： – requests – https://pypi.douban.com/simple/ pillow 利用豆瓣源，加快下载速度，因为直接安装可能会出现timeout的错误（3）chrome 寻找切入点第一步肯定是先来到知乎提供二维码登陆的界面可以看到距离知乎首页文件最近的一个scan_info文件，说了要设置z_c0 于是在我们扫描二维码之后，应该先请求这个文件，再请求首页文件；查看请求的url，也能发现，这个文件也有一部分是动态的
2.2K30编辑于 2022-09-20
来自专栏二进制文集
Java 知乎爬虫
目标爬取知乎用户信息，并作简要分析。基于 Java 的 webmagic，开发极其简单，这个知乎爬虫的代码主体就几行，而且只要专注提取数据就行了（其实是因为我也不知道其它 Java 的爬虫框架）。代理 IP 没有使用代理 IP，经测试开20个线程爬知乎会被封IP，我就开了3个线程。爬取速度 30小时爬取了3w用户（关注者数量≥10的用户），确实慢了点（部分原因是知乎的网站结构，下面分析）。分析知乎的网站结构以一个我关注的知乎大佬为例，url 是：https://www.zhihu.com/people/warfalcon/answers ? 知乎用户高校排名 ? 城市排名 ? 代码 pom 文件需要爬虫框架 webmagic。
1.6K40发布于 2018-10-08
来自专栏MixLab科技+设计实验室
AI版知乎
有没有想过在知乎上提问，不是人来回答你的问题，而是机器来回答？这篇文章介绍一个实现思路，利用技术大批量回答「知乎」上的问题。趁今天周五，我忙里偷闲，写了几行代码，完成了一个知乎答题AI。 ps：知乎关心的话题是有数量限制的，后续可以再写个代码，批量去掉关心的子话题。 STEP 02 获取推荐问题批量获取知乎推荐的问题，在开发者工具console面板，注入以下代码： //获取知乎推荐的问题 async function postData(_limit = 100) STEP04 人机协作这时候，我们只需要挑选感兴趣的问题，稍微修改下，就可以回答啦~ 这里为了节省时间，我稍微修改了下以上的代码，把知乎问题的url，也保留了下来，方便点击链接直接复制答案，跳转到知乎去回答问题
1.2K30发布于 2019-06-26
知乎问题代码
# -*- coding: utf-8 -*- """ Created on Sat May 19 18:44:40 2018 @author: John Kwok """ # import import numpy as np import tensorflow as tf import GetDataUtil # 数据读取及预处理 ''' 定义超参 ''' BATCH_SIZE = 128 # 批大小 EPOCH = 5 # 训练EPOCH次数 HIDDEN_UNIT = 512 KERNEL_S
1.2K20发布于 2018-08-01
来自专栏陶士涵的菜地
看知乎学习反射
知乎：学习java应该如何理解反射？余晖：反射提供了一种运行期获取对象元信息的手段。写框架代码用的比较多，因为需要运行时动态获取和操作对象的属性和方法。尽量少用反射，会有性能开销，大多数场景下可以用设计模式代替知乎：Java 反射到底慢在哪里？松鼠奥利奥：对于 Java 的依赖注入容器而言，反射慢在把装载期做的事情搬到了运行期。知乎：大型多人项目中使用反射机制有什么利弊? vczh：反射是用来做library的，不是用来做业务的。程序员就是控制不住自己啊，东西放在那里就一定要用，不然就手痒。
1.1K20发布于 2019-09-10
来自专栏python爬虫实战之路
知乎模拟登陆
今天先从知乎开始。 Charles系统环境：Mac浏览器：Chrome 抓包首先进行网站登录抓包，打开Chrome浏览器无痕窗口，然后清空所有缓存，打开Charles，在Chrome浏览器地址栏输入www.zhihu.com，打开知乎登录界面图4 登录请求一般是POST，这个很少有例外，有些网站一般会是第一个post请求，可是知乎的post请求有点颇多，这个请求中有username和password，那我们就以这里为基准开始分析。 print(result.get("error").get("message")) return captcha 发送登录请求访问个人中心代码放在我的GitHub上：知乎模拟登录
2.4K30发布于 2018-08-21
来自专栏Crossin的编程教室
揭秘知乎大V
知乎，可以说是国内目前最大的问答类社区。与微博、贴吧等产品不同，知乎上面的内容更多是用户针对特定的问题分享知识、经验和见解。咱们编程教室就有不少读者是从知乎上了解到我们的。那么，知乎上都有哪些“大V”用户？普通用户喜欢关注哪方面内容？我们利用 Python 对知乎上的部分信息进行了个采集，做了一份简单的统计。大V的关联首先给大家看的是知乎上粉丝数前50用户的关系图： ? ? ? 图中的线是用户之间的相互关注的关系。知乎于2010年12月20日上线，到今年7月31日共3145天，轮子哥vzch平均每天要回答7个问题以上（怀疑给他发工资的是微软还是知乎……），而太平洋电脑网则平均每天发表12.8篇文章，真是有够努力！以上就是我们对于知乎公开数据做的一些分析。
1.6K20发布于 2019-11-22
来自专栏猫头虎博客专区
知乎“阅读全文强制登录”引发用户不满，你平常用知乎吗？
文章目录知乎“阅读全文强制登录”引发用户不满，你平常用知乎吗？强制登录与下载App：用户体验的新挑战大平台的责任与用户体验的平衡期望：以内容质量为核心，远离“流氓操作” 知乎“阅读全文强制登录”引发用户不满，你平常用知乎吗？例如，尝试查看下面这篇文章时，如果你没有登录知乎，点击“展开阅读全文”就会弹出登录窗口，无法继续阅读。然而，在手机网页端，这种限制尚未施行，或许知乎还没有对手机端进行同样的操作。知乎作为国内知名的问答社区，截至2023年12月31日，累计拥有7130万名内容创作者，同比增长13.0%。每月的活跃用户也接近一个亿，已经跻身国内同行业的前几名。在收益方面，知乎表现也不俗。这些数据展示了知乎在过去几年中的显著增长以及财务表现的改善，希望知乎未来能够继续以高质量内容吸引用户，提升用户体验。
6.9K50编辑于 2024-05-31
来自专栏用户2442861的专栏
知乎几条不错的想法
作者：大狐狸链接：https://www.zhihu.com/question/36426051/answer/76031743 来源：知乎著作权归作者所有。永远别小看程序媛(╯3╰) 作者：司马奔腾链接：https://www.zhihu.com/question/36426051/answer/82579790 来源：知乎著作权归作者所有。作者：鲁小夫链接：https://www.zhihu.com/question/36426051/answer/67423215 来源：知乎著作权归作者所有。
1.6K10发布于 2018-09-19
来自专栏全栈程序员必看
cookie登录知乎「建议收藏」
用cookie登录个人知乎主页 ---- 步骤： 1、用自己账号登录知乎，然后复制下来自己的cookie信息。 2、用request.get(url,headers=headers)把cookie传入get请求中 3、用BeautifulSoup匹配内容一、用自己账号登录知乎，获取自己的cookie信息。 BeautifulSoup(res.text,'html.parser') # 获取返回html html.find_all('title')[0].string >>> '田埂上的python - 知乎
2.1K20编辑于 2022-07-22
来自专栏终身学习流浪地
pyquery爬取知乎发现
join([question, author, answer])) file.write('\n' + '='*50 + '\n') file.close() 是的，崔大佬书上的例子，但是因为知乎更改网页标题
83020编辑于 2022-02-22
来自专栏Spark学习技巧
知乎数据埋点方案
目前知乎的埋点流程如下图所示。回顾知乎埋点流程的迭代史，整个流程落地三部曲可以总结为六个字：能力、意愿、工具。能力这几年知乎的业务发展很快，埋点的流程也随着迭代了很多个版本。目前对于这个问题，知乎目前没有做统一，由业务自己来定义。行为事件对于行为事件，知乎选择了事件模型，完整描述 Who、When、Where、How 和 What 五大要素。知乎的数据团队在 2016 年做了一个埋点的小工具，只要输入测试设备的 id，就可以查看对应的埋点信息。知乎的做法是将 H5 的日志发送给客户端，由客户端处理后发送给日志接收服务。随着知乎的快速发展，业务越来越多，知乎的埋点模型、流程和平台技术在不断迭代当中，在应用实践上还有很大的改进的空间。
7.5K45发布于 2018-12-11
来自专栏全栈程序员必看
知乎免登录插件2021
在电脑中使用过网页版知乎的小伙伴们应该都知道，在使用前是必须进行登录的，为此小编就带来了知乎免登录插件2021，这是专门针对知乎登录问题而打造的一个浏览器插件脚本工具。知乎免登陆脚本使用教程 1、下载并进行解压后即可获得油猴、知乎免登陆脚本、知乎美化脚本。 5、同时最好吧知乎美化脚本也进行安装。 6、然后可控制脚本的运行状态。 7、最后就可以随意的免登录使用知乎啦。注意事项如果知乎自动跳转到登录页面，则脚本将自动转到空白搜索页。自动关闭知乎的登录弹窗。插件功能一、知乎免登录脚本功能：顾名思义，装上此脚本就能实现不登录也可正常使用知乎。二、知乎美化功能：第二个脚本，可对知乎页面起到一定的美化作用。我们先来看看知乎的原始状态下，有哪些地方不够完美或者是直接影响使用体验的元素。
3.7K10编辑于 2022-07-22
来自专栏陶士涵的菜地
电商设计知乎总结
想做一个B2B2C的电商平台，在后台数据统计搭建的时候需要注意哪些问题？如何设计具体的统计模块？
1.6K20发布于 2019-09-10
来自专栏python前行者
知乎怎么以markdown写作
使用步骤先在markdown编辑器上写好文章复制粘贴到知乎编辑器中点击markdown here 插件一键转化复制转化后的富文本到一个新的知乎编辑器中点击发布参考：https://blog.csdn.net
1.7K50发布于 2019-03-25
来自专栏陶士涵的菜地
看知乎学习工厂模式
简单工厂模式相当于是一个工厂中有各种产品，创建在一个类中，客户无需知道具体产品的名称，只需要知道产品类所对应的参数即可。但是工厂的职责过重，而且当类型过多时不利于系统的扩展维护。
71740发布于 2019-09-10
来自专栏即时通讯技术
知乎技术分享：知乎千万级并发的高性能长连接网关技术实践
本文来自知乎官方技术团队的“知乎技术专栏”，感谢原作者faceair的无私分享。知乎长连接网关致力于业务数据解耦、消息高效分发、解决容量问题，同时提供一定程度的消息可靠性保证。假如讲师正在知乎 Live 的 165218 频道开讲，当客户端进入房间尝试订阅 165218 频道的 Topic 时就需要知乎 Live 的后端判断当前用户是否已经付费。其中 Kafka 和 Redis 都是业界广泛使用的基础组件，它们在知乎都已平台化和容器化 (详见：《Redis at Zhihu》、《知乎基于 Kubernetes 的 Kafka 平台的设计和实现》 6、写在最后知乎长连接网关由基础架构组 (Infra) 开发和维护，主要贡献者是@faceair、@安江泽。
1.7K20发布于 2019-09-05
来自专栏数据爬取
知乎爬取的一个思路 | 评测一款工具：想要收藏知乎的文章，想要采集知乎大v的文章... ...
据软件网站介绍，该软件可以实现对知乎文章采集及图文下载（可下载专栏列表、文章、回答列表、单个回答、视频列表等，用于将相应的链接放在指定文本当中运行软件即可下载，下载下来的图文效果同网站。这是下载好的文章列表我们打开其中一篇，看到图文排版都很OK 每篇文章都在结尾处注明了文章来源，以告知版权来源可以看到，这款软件还是很好的实现了对于知乎不同页面复杂的页面元素的兼容，并能将网站上不必要的软件的功能还是很强大的，能够支持知乎不同链接的识别并正确下载。更为强大的是这个下载下来的版面格式非常符合我们阅读的版面要求，而且文中的图片和视频也都同步下载到本地，可以说是很贴心的功能了。文章来源：想要收藏知乎的文章，想要采集知乎大v的文章，给大家分享一个这款专门采集与下载的工具 (qq.com)
1.8K20编辑于 2022-11-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

知乎爬虫

爬虫课程（十一）｜知乎：使用Scrapy模拟登录知乎

知乎登陆

Java 知乎爬虫

AI版知乎

知乎问题代码

看知乎学习反射

知乎模拟登陆

揭秘知乎大V

知乎“阅读全文强制登录”引发用户不满，你平常用知乎吗？

知乎几条不错的想法

cookie登录知乎「建议收藏」

pyquery爬取知乎发现

知乎数据埋点方案

知乎免登录插件2021

电商设计知乎总结

知乎怎么以markdown写作

看知乎学习工厂模式

知乎技术分享：知乎千万级并发的高性能长连接网关技术实践

知乎爬取的一个思路 | 评测一款工具：想要收藏知乎的文章，想要采集知乎大v的文章... ...

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐