首先 #buyixiao# 这个就是话题, 而 buyixiao 是关键词;使用关键词可以同时搜到同名话题,话题却不能搜到同名关键词。 在 2021 新版微博话题爬虫发布 中的新版话题爬虫,把 keyword 设置成 buyixiao 就能抓取关键词微博,设置成 #buyixiao# 就能抓取话题微博。 只需要将 keyword 设置为 buyixiao超话 即可。其余限制时间范围,是否原创等的配置同话题关键词。保存字段也一样。 https://buyixiao.github.io/blog/weibo-super-spider.html 总结下,就是使用微博话题爬虫就能抓取超话, keyword 设置时加个超话即可。
欢迎关注公众号「月小水长」,唯一笔者是 BuyiXiao,又名小布衣、肖不已。 BuyiXiao,何许人也? 新版模型在线地址如下: https://weibo-crawl-visual.buyixiao.xyz/weibo-spammer-evaluator 同时新增了 API 接口调用,接口地址是: https ://api.buyixiao.xyz/weibo/spammer-account-evaluate 使用 Python 调用该接口的 demo 代码如下: test_token = "在此处填入在模型在线地址申请的 token" def test_spammer_evaluate(user_id): resp = requests.get(url=f'https://api.buyixiao.xyz/weibo
我把以上几个单页面应用 SPA(Single Page Application)合成了一个多页面应用,这样一来,只需要记住这一个网站就行,网站地址是: https://weibo-crawl-visual.buyixiao.xyz 例如,之前访问微博多级转发网络构建站点的链接是: https://weibo-layer-repost.buyixiao.xyz/ 现在点击这个链接,它会自动跳转到当前站点下的对应子链接: https: //weibo-crawl-visual.buyixiao.xyz/weibo-repost-path-network-generator 其他站点类似,不一一举例。
https://buyixiao.github.io/blog/weibo-super-spider.html#%E8%AF%9D%E9%A2%98%E5%85%B3%E9%94%AE%E8%AF%8D https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual 上传 CSV 趋势分析 自定义词云生成 对于任意最近的微博热搜或者以往的微博热搜抓取和分析可视化 https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-with-reply-spider 你只需要在线点点点就行了,抓取结束可以点击下载 CSV 文件 https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider 这个爬虫配套的教程和网站还有很多未能详尽阐述的,但是道理都类似,一般有新增或者修复我都会更新在对应的博客地址 https://buyixiao.github.io/blog/weibo-super-spider.html
接口地址如下: http://weibo.buyixiao.xyz/custom-vis/topic-user-co-occurrence-visual/ 使用 gephi 导入 edge.csv 和 2、后台处理耗时不到 1 min,如果超时还没有收到,请查看邮件垃圾箱,再不然在文末点击阅读原文的 buyiXiao's blog 网站留言,我会及时查看后台日志并反馈。 https://buyixiao.github.io/blog/one-stop-weibo-visualization.html
常规可视化 这一步,选择本号之前开发过的微博话题可视化工具直接完成,工具地址为: https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual spammer 模型在线使用地址为: https://weibo-crawl-visual.buyixiao.xyz/weibo-spammer-evaluator 再来看下微博发布的 ip 属地城市分布情况 更多的常规可视化,比如流量桑基图: 可以去下面这个页面生成: https://tools.buyixiao.xyz/advanced-chart 复杂网络建模 简言之就是抽取微博文本中相互引用的话题和相互艾特的好友 ,分别构造话题之间和好友之间的 gephi 文件和关系矩阵文件,详细解释可以参考 复杂网络 | 社交媒体话题和人物共现,工具地址在: https://weibo-crawl-visual.buyixiao.xyz
这一年半在我的 BuyiXiao Blog 上更新了差不多 10 篇(标签是 pandas,地址如下),但是几乎都没有发布在公众号上。 https://buyixiao.github.io/tags/pandas/ 还是那个原因,代码工程永远是追求最佳实践的,或者更准确的来说应该是更佳实践,因为我觉得脱离了时间背景,没有最佳实践。 运行环境 Python3.6+ # github https://github.com/inspurer # website https://buyixiao.github.io 我还在学 Java 的时候,听闻江湖中流传着阿里人的 Java 内功心法:为什么阿里巴巴不建议在 for 循环中使用"+"进行字符串拼接; 我觉得今天的推送和这个心法有异曲同工之妙,我愿改个标题:为什么BuyiXiao 不建议在 for 循环中使用 append 或者 concat 进行 dataframe 拼接 或者更干脆些:为什么 BuyiXiao 不建议在 for 循环中进行 dataframe 拼接。
、评论用户的粉丝数和关注数等字段~,全部为网页公开信息,不包括任何隐私数据,示例结果文件如下: 爬虫系统部署在服务器上,可在以下网页直接使用: https://weibo-crawl-visual.buyixiao.xyz /weibo-comment-spider 抓取结束后,可以直接在网页上进行可视化分析: https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-visual 则是对所有的评论文本分词后进行词云可视化,并且可以在网页上自定义停用词: 最后,点击下方阅读原文直达评论爬虫系统,也可复制下方地址到浏览器打开 https://weibo-crawl-visual.buyixiao.xyz
模型网页测试地址为 https://weibo-crawl-visual.buyixiao.xyz/weibo-spammer-evaluator 其中第一个 tab 是一般版本,最后一个 tab 为 同时新增了 API 接口调用,接口地址是: https://api.buyixiao.xyz/weibo/spammer-account-evaluate 使用 Python 调用该接口的 demo 代码如下 test_token = "在此处填入你申请的 token" def test_spammer_evaluate(user_id): resp = requests.get(url=f'https://api.buyixiao.xyz
https://afdian.net/@buyixiao 该微博多级转发构建网站地址: https://weibo-layer-repost.buyixiao.xyz/
仅凭上面两张图,在不百度的情况下,你能猜到是哪两个人的足迹吗,欢迎留言~,可以去以下网址验证你的猜想: https://tools.buyixiao.xyz/historical-figure-query 废话不多说,演示地址: https://tools.buyixiao.xyz/historical-figure-statistics
等到后面学了数据库基本原理和技术,以及一点数据分析可视化技巧后,才陆陆续续有了一些可以实现的 idea,于是上周日忙里偷闲完成了一些可能相对古早的 idea,一并部署上线,页面地址为: https://tools.buyixiao.xyz 本文同步载于 BuyiXiao's Blog,转载请注明来源,地址如下: https://buyixiao.github.io/blog/historical-figure-visual.html 人海浮沉几万里 本文只是以苏轼为例,可以在页面上输入任何历史名人,欢迎大家访问工具页面,复制下述地址到浏览器打开 https://tools.buyixiao.xyz/historical-figure-query
... as we all known,微信文章不好修改,以前的教程可能失效,关于微博爬虫,一切以 buyixiao's blog 为准,后续小的更新直接发布在博客上(大的还是会发布在公众号通知读者), 本次各种问题的集中解答也更新于此: https://buyixiao.github.io/blog/weibo-super-spider.html#%E9%81%87%E5%88%B0%E9%94%99%
接口路径为 http://weibo.buyixiao.xyz/custom-vis/topics-daily-sentiment-compare-visual/ 如下图所示: 上面的示例图表就是多话题情感分析 https://buyixiao.github.io/blog/one-stop-weibo-visualization.html#%E6%9B%B4%E6%96%B0%E6%97%A5%E5%BF%97
之间和 user 之间的关系矩阵,然后导入 Gephi 软件进行复杂网络分析,是非常普遍的研究手段,本文将介绍如何自动化这一过程,已部署至网页: https://weibo-crawl-visual.buyixiao.xyz 地址: https://weibo-crawl-visual.buyixiao.xyz/weibo-topic-user-matrix-extractor
https://afdian.net/@buyixiao 网站地址: https://bilibili-user-network.buyixiao.xyz/
网站的访问地址可以是, http://weibo.buyixiao.xyz/ 也可以是 http://buyixiao.xyz/
欢迎关注公众号「月小水长」,唯一笔者是 BuyiXiao,又名小布衣、肖不已。 BuyiXiao,何许人也? 以上图表均使用 https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual 制作而成 然后提取出马斯克推文提到的每一个用户,并构建用户邻接矩阵, 导入 Gephi 软件可视化如下: 以下图表数据使用 https://weibo-crawl-visual.buyixiao.xyz/weibo-topic-user-matrix-extractor
这六个图表在 buyixiao 的可视化工具集站点的同一个页面: https://tools.buyixiao.xyz/advanced-chart 快去体验~,有问题欢迎留言~,点击阅读原文直达~
即,自己上传自定义数据,并且可以在线编辑,直接生成北宋社交龙卷风苏轼同款的社交网络图~当然可以,抽空我就支持了,并且该网页已经上线四个多月了,依旧无门槛免费使用,地址如下:https://tools.buyixiao.xyz https://tools.buyixiao.xyz/relation-chart作者介绍我是月小水长,多年互联网大厂&创业前后端全栈开发经验,大数据大模型一线项目实战者,数据可视化数字人文爱好者,全网粉丝近