由于迫近美国对 Tiktok 美区封杀政策的最后期限,前几天大批的 Tiktok 用户涌入小红书 RedNote,并自称 Tiktok Refugees;
相关话题数次登上小红书热搜,小红书 App 也数次登顶各大国家的 App 免费榜,这波泼天的富贵被小红书接住了,
依稀记得那几天,小红书首页推荐全是上缴猫税的 American,好不热闹,
透过现象看本质,除了深刻的洞察力,有时候也需要数据实证分析支持结论;
虚拟经济、实体经济,线上线下各种智能决策、分析推理,都需要数据的支持;
数据是智能时代的石油,它广泛分布在各类社交平台为代表的传统互联网、以各种终端传感器为代表的工业互联网等等
所以数据采集就像是开采石油,google 和百度就好比是石油开采公司,我们的每一次搜索就是在消费石油。
说远了,继续回到小红书 Tiktok Refugees 数据采集,
小红书的笔记数据无论是网页版本还是 App 版本,
一个关键词搜索出来的笔记最多能看到的条数在四位数,也就是1-n千条左右;
这是后端 API 接口限制所致,前端只是显示;
不过 App 单屏幕显示的笔记数有限,不如 PC 网页版一屏加载几十篇笔记,需要下翻 N 多次才到底;
所以就有一个误区,App 能够看到无限的笔记,这其实是一个错觉,
按照我的经验,App 确实稍微比 PC 版本数据多一点,
所以要想一次性采集小红书所有的 Tiktok Refugees 笔记数据,显然不可能,
除非监控,并且在 Tiktok Refugees 话题出来还没爆之前,
持续采集最新笔记,追加到数据库中,
我做了一个小红书采集软件,目前仅有 windows 版本,持续维护中,
可以以多种采集条件,采集任意关键词下面的笔记,
并且可以选择是否下载对应笔记的详情、对应笔记的评论区,

采集结果保存在对应的 csv 文件中,
包含标题、内容、点赞数、分享数、评论数、ip 属地、图片等 20 多个字段
结果仅用作数据分析,毋作他用。
采集到一些 10w+ 热门的笔记后,这些笔记的评论区也是非常重要的第一手分析资料的来源,
可以作为笔记文本数量不足的补充,刚好评论区采集是几乎没有限制的,
查看了 Tiktok Refugees 话题下评论最多的笔记,有 64,000+ 评论文本,
选几条热门笔记的评论区,数据量很容易就过 100,000 了,
评论采集软件也是 windows 版本,和上面的一样,只不过输入的是笔记链接。