难点 微信公众号历史的所有文章(来源???) 每篇文章的阅读量和点赞量(电脑上浏览文章只显示内容,没有阅读量、点赞量、评论……) 突破难点一 搜狗微信搜索,可以搜索微信公众号文章。 但是貌似只能显示该公众号最近十篇的文章。 弹出了一个小窗口,选择“查找文章”,输入需要查找的公众号,这里用“宅基地”公众号作为例子 ? 点击之后,可以弹出该公众号的所有历史文章 ? 搜索公众号名称 ? ) #登录之后,通过微信公众号后台提供的微信公众号文章接口爬取文章 for query in gzlist: #爬取微信公众号文章,并存在本地文本中 (sogou_search_url) # Step 2:从搜索结果页中解析出公众号主页链接 log(u'获取sougou_search_html成功,开始抓取公众号对应的主页wx_url
概述 爬取微信公众号文章 爬取微信公众号有三种方法: 第一种:用搜狗微信公众号搜过,这个只能收到前10条; 第二种:用fiddler或手机抓包,从访问链接去获得appmsg_token,发现虽然这个值就在 第三种:就是这种用公众号搜公众号的,虽然速度慢点,但便捷了不少。 功能 程序原理: 通过selenium登录获取token和cookie,再自动爬取和下载 使用前提: 1、电脑已装Firefox、Chrome、Opera、Edge等浏览器(默认使用火狐驱动) 2、下载 selenium驱动放入python安装目录,将目录添加至环境变量(https://www.seleniumhq.org/download/) 3、申请一个微信公众号(https://mp.weixin.qq.com ) 使用 更新记录: 下载文章文字内容到txt 下载文章图片 保存HTML文件,并将图片链接指向本地 添加按时间范围下载 添加cookie登陆,不成功才selenium浏览器登陆 增加记住密码功能 修复一些问题
就是照搬被人文章到公众号上,一般格式是不能复制粘贴的,怎么办呢,爬源码 import requests import re import time from lxml import html from =11000003&pass_ticket=5jR8RnNSI7woS8zm30GvzXC2C8NHS5ayD4%2B7qltAzc%2FzfQgzX4KOt1d3LtJrvfVD') # 最基本的 8') file_obj.write(new_content) file_obj.close() 这时候用vim打开7.8.md时打开的网页就是和原网页一摸一样的网页,发现有些图片不显示,毕竟是别人公众号的图片 \"', content[0], re.S) re.S) for img in imgs: print img print 可以将图片上传到自己公众号,没有认证只能上传临时素材 import requests.get(getload_url) # get the online png data (binary data) print dir(pp) print pp.url 只要把这个网页换掉之前的网页,一篇文章就出来了
随着小程序不断的发展,现在个人的小程序也开放了很多功能了,个人小程序直接打开公众号链接。在群里看到的一款小程序,点击可以直接阅读文章了,所以琢磨了一下,写了一些源码。 class="view-search"> <input class="input" placeholder-class="input-placeholder" placeholder="输入<em>文章</em>和链接 : flex; flex-direction: row; height: 70rpx; margin: 20rpx; padding: 5rpx; border: 1px #e4e<em>2</em>e<em>2</em> weixinlink' }) }, onLoad: function() { console.log('onLoad:' + app.globalData.domain) } }) <em>文章</em>界面 token=1408526571&lang=zh_CN#rd"></web-view> 注意: 小程序要和公众号关联,链接才可以打开。
本文将介绍如何使用 Wewe-RSS 服务将微信公众号文章转换为 RSS 订阅链接,方便您更高效地阅读感兴趣的公众号内容。 Wewe-RSS 简介 仓库:https://github.com/cooderl/wewe-rss 页面截图: 页面截图 Wewe-RSS 是一个基于微信读书的公众号 RSS 生成服务,支持私有化部署 其主要功能包括: 支持微信公众号订阅 后台自动定时更新内容 微信公众号 RSS 生成(支持 .atom、.rss、.json 格式) 支持全文内容输出,阅读无障碍 所有订阅源导出 OPML 部署 Wewe-RSS 为了给大家演示效果,我制作了我自己的微信公众号的rss链接:renhai-lab微信公众号rss链接。 导入到你喜欢的rss阅读器进行阅读。 关于rss阅读器,我写过一篇文章来推荐,感兴趣的可以去阅读。
******************************************************************************** 试了多种方法,发现还是使用自己创建一个公众号再搜索的方式最有用 有三种方法, 第一种:用搜狗微信公众号搜过,这个只能收到前10条; 第二种:用fiddler或手机抓包,从访问链接去获得appmsg_token,发现虽然这个值就在html页面里,但只有抓包的数据里含有效值 第三种:就是这种用公众号搜公众号的,虽然速度慢点,但便捷了不少。 print(">> 下载selenium驱动放入python安装目录,将目录添加至环境变量(https://www.seleniumhq.org/download/)") print(">> 申请一个微信公众号
年前发了一篇FunTester公众号原创文章总结FunTester原创大赏,但是整理的时候却发现自己没有记录文章的发表日期,导致有一些文章由于发表日志过早(且排名靠前)影响了一丝阅读体验,所以我想了一个办法爬取了每篇文章的发表时间 日期获取 经过页面的检查,发现的确存在发表日期的记录数据,隐藏在巨大的信息当中,不过有意思的是,微信公众号的公共访问内容居然全文只有一处日期且为真正的发表日期,所以也大大节省了我的时间。 \\d\\-\\d{2}\\-\\d{2} \\d{2}:\\d{2}") def s = all[0] output(key + PART + s) } 原创文章链接 [") && it.contains("weixin.qq")) { String url = it.substring(it.lastIndexOf("]") + 2) [") && it.contains("weixin.qq")) { String url = it.substring(it.lastIndexOf("]") + 2)
本文将介绍如何使用 Wewe-RSS 服务将微信公众号文章转换为 RSS 订阅链接,方便您更高效地阅读感兴趣的公众号内容。 其主要功能包括: 支持微信公众号订阅 后台自动定时更新内容 微信公众号 RSS 生成(支持 .atom、.rss、.json 格式) 支持全文内容输出,阅读无障碍 所有订阅源导出 OPML 部署 Wewe-RSS get.docker.com | bash # 国内 curl -fsSL https://get.docker.com -o get-docker.sh sh get-docker.sh --mirror=Aliyun 2. 为了给大家演示效果,我制作了我自己的微信公众号的rss链接:renhai-lab微信公众号rss链接。 导入到你喜欢的rss阅读器进行阅读。 关于rss阅读器,我写过一篇文章来推荐,感兴趣的可以去阅读。 如果你对本文章有其它任何问题可以在博客的评论区留言,或者通过微信公众号发送私信给我。
前段时间《一个出身寒门的状元之死》刷屏了,当我看完了这篇文章,很有感触,一开始我以为是事实,后来才发现完全是虚构,对于我来讲并不是非常在乎文章中的故事是否是真实的,我在乎文章给我的那种生活体验。 当我看到这个时很震惊,心想这么好的阅读体验的文章就这么没了,在网上搜索了好久都搜索不到。心里一阵堵。 唉,如何防止喜欢的公众号文章被删除呢? 那就是当天就把该文章保存起来,有时间再回头慢慢玩味。 现在每个人都很忙,而且关注的公众号也多,有没有程序来帮我做这件事呢? 还真有,我搜索了一下,发现这样一个好的开源项目:wechat-spider 界面预览 1) 要爬取的微信公众号列表 ? 2) 要爬取的文章关键字列表 ? 3) 已经爬取的微信文章 ? 4) 查看文章,并标记是否可用 ? 5) 控制爬取进程数 ? 6) 创建超级管理员账号,访问后台,并配置要爬取的公众号和关键字 python manage.py createsuperuser 8)启动爬虫 $ python bin/scheduler.py $
记录一下个人使用 Python3 爬取个人公众号的所有文章,并把文章保存为 Markdown 格式的一些操作记录,主要介绍一下思路和一些简单的代码。 前提条件与思路 需要登录网页端微信公众号,获取对应 Cookies; 通过获取的 Cookies 爬取所有的文章 url 以及其他信息; 通过文章 url 获取对应文章的 HTML; 最后,把 HTML 截止本文章发布前,个人公众号全部已发表的文章大约有 400 多篇,通过这个方法都能正常爬取下来。 获取已发表文章数 登录公众号,按下 F12 打开开发者工具,在 网络 栏中找到 appmsgpublish 名称的请求。 获取所有的文章信息 以下程序的 mp.txt 就是得到的该公众号所有文章信息的列表。
今天继续向 Python 头条添加数据信息,完成了微信公号的爬虫,接下来会继续通过搜狗的知乎搜索抓取知乎上与 Python 相关的文章、问答。 微信公众号的文章链接有些是具有时效性的,过一段时间会变成参数错误而无法访问,但是我们发现从公众号后台点击过去得到的链接却是永久链接,其参数不会改变链接也不会失效,也就是说只要能够获得这些参数就可以得到永久链接 type=2&query=Python&page={}" 提取链接、标题和摘要信息: import requests as req import re rInfo = r'<h4[\s\S]*? >', '', s) 然后根据时效性链接获取文章内容,并从中提取参数信息: from html import unescape from urllib.parse import urlencode + urlencode(params) print(link, title, abstract) 看到文章最后,如果觉得此篇文章对您有帮助的话,麻烦点个赞再走哦~谢谢阅读
目前微信公众号的编辑器是不支持Markdown语法的,那怎么办呢? 有一款叫Markdown Here的插件可以解决这个问题(支持Chrome、Firefox、Safari)。 Markdown Here 的用法非常简单,直接在编辑器中用Markdown语法写完文章或粘贴进去写好的文章,然后鼠标右键选择「Markdown转换」,或者点击 Markdown Here 插件图标转换 这时候你会发现文章排版全好了,amazing! Markdown Here默认使用的是Github风格的排版,如果你懂CSS的话甚至可以自己定义。 编辑器上码字,顺便练习 Markdown 语法; 在 Chrome 浏览器中安装 Markdown Here 插件; 自定义 Markdown Here 的 CSS; 把 Markdown 编辑器上码好的文章复制粘帖到微信公众帐号的编辑器中 important; } h2 { font-size: 20px !important; border-bottom: 1px solid #eee !
微信公众号的编辑器之难用实在令人无法忍受,因此滋生了很多公众号排版工具。 作为一个非 markdown 无法写作的程序员,第一时间就是想到如何将 markdown 一键生成公众号可支持的格式 一开始直接 Typora 渲染的格式粘贴到公众号,效果很不理想,需要再手工调整 继而寻找第三方工具 图床我用腾讯云,使用 iPic 工具一键上传,十分方便,惟一缺的只是如何将 markdown 渲染成可一键粘贴到公众号的工具 几经寻找,终于找到了最合适的工具 Md2All,只需要将 markdown 文本粘贴到页面,点击复制,就可以粘贴到公众号,样式一模一样 这才是程序员追求的效果,只专注于内容输出,排版之类的繁琐细节就应该自动生成。 image 综上,总体的流程为: vscode 写文章 iPic 上传图片到云图床, vscode 插件生成目录编号 Md2All 生成排版 粘贴到公众号 完美的流程,无须为排版耗费心力,尽情输出...
微信公众号中不允许出现外域图片,因此需要把文章里的图片全部使用微信的图片上传接口处理后替换。此外,微信公众号支持 HTML 标签但是只支持内联样式,所以必须把外联样式全部转换为内联样式。 所以,同步到微信公众号的操作,需要按照以下步骤: 使用公众号的 appid 和 secret 换取 access token。 把文章中的所有图片用微信图片上传接口上传,并替换文章里的 URL。 : 0, // 是否把封面图添加到文章开头 }], }); 这样就可以成功把文章同步到微信公众号后台的素材库中。 最后在微信公众号官方客户端 “订阅号助手” 操作一下,就可以成功把文章发布出去了。 尚未解决的小问题 虽然同步到微信公众号这个功能帮我打通了在手机上创作到发布的整个链路,但是还是有两个小问题暂时没法解决: 微信公众号未提供声明原创的接口,官方客户端也没有这个功能,因此想要声明原创文章还是必须在电脑上操作
仿照着WPMEE文章底部的公众号模块写的,之前扒了扒css,一直有问题就放在那里了,今天突然开窍。就自己试着写了一下。 魔改一时爽。重构无止境。 移植版本 重构版本 正文开始. single.php中适当位置添加如下代码: <html> <link rel="stylesheet" href="https://a-oss.zmki.cn/20190514/weibugzh<em>2</em>. <img id=img src="https://a-oss.zmki.cn/2019/03/05/5c7de96bd4328.png">
关注微信公众号 『科技小新』
第一时间了解最新网络动态
关注博主不迷路~
python第三方库pdfkit非常好用,基本上应用它就可以打印出pdf文件,作为学渣收藏干货吃灰简直是完美匹配,本渣渣也写了不少爬取不少干货打印成pdf的文章,其中就有微信公众号文章,前段时间又继续折腾了公众号文章打印 SO,因此有了这样一篇文章,解决微信公众号文章打印pdf图片无法显示的问题,不懂的话直接搜大佬的参考方案,百试百灵!! 下面就来复盘一下解决方案! 就以本渣渣的公众号文章链接为例: 【微信采集助手】Python Tkinter 微信公众号文章批量采集工具 ? 爬取打印pdf效果: ? ? 这里再提供一下最近的代码参考,一个大佬老哥的源码: 搞定,爬取公众号文章转换成PDF,自动邮件发送给自己! 可自行参考! 附完整源码参考: #采集微信公众号文章内容转pdf文件 #by 微信:huguo00289 # -*- coding: UTF-8 -*- import wechatsogou import pdfkit
一、微信账号介绍 个人号:普通用户之间的交流和通讯 公众号:微信公众号主要面向名人、政府、媒体、企业等机构推出的合作推广业务。 (微信曾经大规模封杀好友过多的营销个人号) 公众号则完全是为品牌推广、信息推送等服务而定制的。 公众号还提供关键词自动回复等基础功能,以此可以随时、自动的和粉丝进行互动 除了这些基础功能之外,更大的区别是,微信针对公众号开放了很多程序接口。在这些接口的基础上,可以向粉丝提供更多的服务。 不过针对不同类型的公众号,微信提供的功能不同,资质要求也不一样 公众号与公众平台: 公众平台:微信公众平台是运营者通过公众号为微信用户提供资讯和服务的平台,而公众平台开发接口则是提供服务的基础,开发者在公众平台网站中创建公众号 微信公众平台https://mp.weixin.qq.com/ 可以用来注册、管理公众号 微信认证:微信认证是微信公众平台为了确保公众帐号的信息的真实性、安全性,目前提供给微信公众服务号进行微信认证的服务
文字排版是一篇文章展现给读者的第一印象,不知道大家怎么看,反正我每次看到排版错乱的文章,往下读的兴趣直接减少了一半。 自从在微信公众平台写文章以来,发现平台自带编辑器功能确实很弱,尤其对于技术文章,其排版更是惨不忍睹。所以光用它默认的功能,是很难做出优秀的排版的。 所以我一直在寻找好的排版工具。 使用 Md2All Md2All 的作者是「颜家大少」,他开发的这块 Markdown 排版利器,功能非常强大。主要功能如官网所言: 支持 "一键排版" 、自定义 css、80 多种代码高亮。 能让 Markdown 内容,无需作任何调整就能 一键复制 到微信公众号、博客园、掘金、知乎、csdn、51cto、wordpress、hexo。。。等平台。 支持把图片自动上传到云图床; 支持 Latex 数学公式在公众号等平台完美显示; 支持生成带样式的 html 文件; 甚至支持直接用原生的 html、 css 排版。
微信小程序深夜凌晨放大招,公众号群发文章支持添加小程序,以下是微信公众平台的公告:为了方便用户在阅读文章时使用公众号提供的服务,公众号群发文章支持添加小程序。 公众号可将已关联的小程序添加到群发文章的正文中,点击后打开小程序。 可自定义小程序卡片的标题和图片,指定小程序打开的页面。 支持所有公众号群发文章的正文里添加小程序。 不知道怎么在公众号图文消息里添加小程序卡片?看这里: ①登录公众号后台,点击右侧“小程序” ? ②选择已关联的小程序 ? ③确认展示方式(查看样式效果) ?
我之前用Charles来抓取了得到App的音频资料 抓取得到App音频数据,于是又收到有读者要我抓取公众号文章,于是就有了这一篇文章. 不知道爬谁的文章好,想了想找了比较接地气的公众号大V[匿名一下,省得被认为蹭流量],于是在微信上征得他同意后,开始干活了! 抓取的效果图如下: ? 打开Charles抓包工具,打开微信客户端,我是直接用微信PC版上查看公众号文章的,其实这与手机上的道理是一样的。 分析: 找到目标公众号,然后进入历史文章列表,刷新,发现变黄的选项后观察变化,这里需要注意一下我们的请求数据,我们多次发起请求发现请求中,只是url的偏移量发生了变化.于是我们就找出了规律. 总结说明两点:爬取公众号的文章主要就是注意url与cookie的变化,其它都是相似的。另外每个公众号的url与cookie必须匹配,才能获取到文章列表, 下面可以开始写代码了!