最近在对比几个新出的 AI 编程工具(比如 Cursor 和字节新出的 Trae),顺手翻了翻 GitHub 上的相关开源生态,结果越看一些项目的增长曲线越觉得离谱。
好奇心驱使下去 Fiverr 上搜了一把“GitHub stars”,好家伙,真的是打开了新世界的大门:当下有二十多个明码标价的在售服务。最便宜的 3 分钱(美元)一颗,但这种劣质号活不过 GitHub 下一次的清理脚本;想买“包月留存”的,得花将近 1 欧元一颗,甚至还有售后续保服务。
这不是什么极客圈的恶作剧,而是一条高度成熟的工业化灰产。最近一届软件工程顶会 ICSE 上,有篇论文扒出了一个惊人的底数:GitHub 上已经有大约 600 万次疑似刷星行为,牵涉近 2 万个仓库。
作为天天泡在代码和系统架构里的开发者,我们有必要把这件事掰开揉碎了看一看。这背后的逻辑,其实远比“花钱买虚荣”复杂得多。
谁在买单?需求端的逻辑其实非常粗暴。
其实这和我们在做量化交易里写的高频策略有点像,风投(VC)在种子轮筛项目,看的就是一个“指标套利”。早期开源项目没有营收,没法算留存率,VC 手里的爬虫脚本天天扫 GitHub,触发进入视野的阈值往往就是“一周内 Star 增速过千”。
据统计,一家开源创业公司拿到种子轮时的 Star 中位数大约是 2850 颗。买齐这些星需要多少钱?底价只要 85 美元左右。用 85 美金去撬动几百万美金的融资,理论上的 ROI 高达 11 万倍。
在没有任何商业化数据做支撑的真空期,Star 成了唯一的市场势头代理。这也是为什么 AI infra 和大模型周边工具成了重灾区——估值对社区信号太敏感了。投资人真的全被蒙在鼓里吗?未必。风投买的是期权,只要这个高增长的 Star 曲线能让下一轮接盘的资本相信,交易就成立了。大家都在配合演出。
说实话,站在道德制高点去喷创始人作弊很容易,但在现实的引力面前,很多决定是无奈的。
如果是硅谷 YC 出来的 Founder,在 Twitter 发一句新项目上线,前同事和圈内大佬顺手一转,几个小时真实 Star 就能破千。但如果换成是一个坐在工位,熬夜手搓底层网络路由或者性能监控工具的兄弟呢?
你想出海,想引起海外社区注意,但你没有硅谷的人脉,Twitter 只有几十个粉丝,发个推连水花都砸不出来。头一个星期要是只有五十个 Star,这个项目基本就等于“查无此库”,根本进不了任何开发者的雷达。
别人买星,本质上是在用现金购买自己缺乏的“社交资本”。很多国内出海团队把刷几千个基准星作为冷启动的保底操作,不是为了面子,而是为了拿到“看起来值得被关注”的入场券,从而熬过最致命的第一周。
但技术圈终究还是要讲逻辑的,刷来的东西,长期看必然变成反向资产。
这几年,GitHub 的推荐算法早就不是简单的按 Star 数倒排了,Trending 页面加入了大量真实的活跃度权重。如果你花钱灌了一万个星,但平时 Issue 没人提,PR 没人交,这种陡峭的异常曲线在系统判定里就是典型的数据污染,直接导致项目被降权,连自然的首页推荐都吃不到。
其实,扒掉这些刷星项目的底裤,根本用不着专门的安全团队。咱们自己写几行 Python 脚本,用 Pandas 拉一下仓库的公开数据,做个简单的分位数对比或者画个热力图,一眼假:
这套把戏并不新鲜,150 年前美国西部淘金热,就有矿主往废弃矿洞里撒金粉来骗东海岸的投资人。现在只是把金粉换成了自动化脚本注册的 GitHub 账号。
在这个击鼓传花的游戏里,指标一旦能被轻易量化并用来换钱,它就失效了。
目前,已经有像 StarScout 这样的开源鉴别工具出现,消除信息差只是时间问题。作为纯粹的技术人,咱们在找轮子、看前沿项目的时候,眼睛还是得擦亮。别被那一长串虚胖的数字忽悠了,回归代码本身,看看它的架构设计是否扎实,能不能解决真实的业务痛点,才是最重要的。
毕竟,资本市场可以靠数据粉饰,但线上的生产环境不会陪你演戏。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。