可能是世界上首个实事求是的时空文本语义分析 AI Agent

月小水长

发布于 2026-06-24 13:10:34

700

文章被收录于专栏：月小水长月小水长

时空分析 SpatioAgent 的由来

这个时空分析 AI Agent，SpatioAgent，可能是世界上首个同时在多个垂类数据采集资源调度和研究任务分析实现自闭环的大数据时空语义分析 AI Agent。

为什么说我敢说他是世界首个呢，因为加的定语足够长。

开门见山，SpatioAgent 主要解决是下面这几类痛点需求：

1、苦于在正式数据分析任务前，需要做大量数据采集清洗的这类重工程任务，而因为自己是其他专业转行感到力不从心的商业数据分析师。

2、拥有良好的数据集，不知道怎么下手分析的爬虫工程师。

3、以上两者兼有的工程师、或者只是想轻轻验证自己好奇心的研究者。

本质上，SpatioAgent 解决的是很具体、很脏的问题：很多研究和商业分析，最难的不是写结论，万事开头难，难的是先把能分析的数据弄出来。

而且想研究一个城市最近在讨论什么、居民和游客的关注点差在哪、某个政治人物或品牌的态度怎么变、某个活动前后人流和语义氛围有没有动静诸如此类的任务，听上去像一句 prompt 就能解决，做起来，却完全是另外一回事。

首先得有数据，得知道它覆盖哪个城市、哪个时间段，得清洗文本、处理地点、对齐时间窗口，而且所有的大模型本质上都具有讨好型人格，还得防着模型一本正经地拿空气编报告。

所谓“深度研究”，深的往往不是研究，而是大模型的套路和你熬夜的黑眼圈，有感于此，我把这条链路做成了这个 SpatioAgent。

SpatioAgent 能干啥

SpatioAgent 面向的是带时间、地点信息的城市签到文本。

比起普通文本，它多了时间和空间两个维度：普通文本只能问“大家在聊什么”，时空文本还能问这个话题在哪里升温、本地人和游客是不是在聊同一件事、某个实体的支持和反对有没有随时间变化、城内或跨城的流动有没有可观察的方向。

我把数据限定在带有签到地点信息的时空文本，因为它比起单纯的文本信息，维度更多元，时间空间双向扩展，能够衍生出更多系统性综合性的分析任务。

目前内置三类核心分析：

话题与情绪：从指定城市、区域或时间窗口提取热点话题和情绪基调，也能比较本地居民与游客的差异。
实体立场趋势：追踪人物、政策、品牌等实体在一段时间内的支持、反对和摆动。
迁徙与流动模式：根据用户位置变化，观察城市内或城市间的聚合流动方向。

SpatioAgent 长啥样

SpatioAgent 的前端页面设计参考了 ChatGPT，不过风格是我个人喜欢的橙白系（可以切换日间/夜间模式），可以多会话，所有会话数据持久化保存在数据库中，，最好将类似的分析任务放在同一会话中，

SpatioAgent 主界面

SpatioAgent 也设计了跨 Session 的 User Profile Preference 实现，即全局记住用户的偏好，后续的 Agent 回答会结合这个偏好。

每一次执行分析都有详细的步骤拆解统计耗时并实时显示进度，这得益于对 SpatioAgent 同时对自主调用各种 MCP、SKill 工具的 trace 做了追踪记录。

实时进度链路

同时支持将一次对话或者一次会话通过海报的形式分享出去。

分享海报

其他细致入微的小功能就不再赘述，欢迎大家查看后文产品地址亲身体验。

它和大模型的"联网搜索"不一样！

很多人第一反应是：这不就是让大模型联网搜一下、再写份报告吗？

其实不是。通用搜索擅长找网页、找新闻、找已有观点，但它不擅长临时为你的研究问题构建一个垂直数据集。

比如你问“墨尔本某段时间里，游客和本地人在城市空间里的讨论重点有什么不同”，Codex 或者 Claude Code 虽然都能联网实时搜索，但这些联网的 AI 搜索引擎最多给你十几篇文章，然后简单总结归纳，而你真正需要的是一批带时间、地点、文本、用户行为线索的数据，然后对它做聚合分析。

这些大模型接的搜索都是通用 AI 搜索引擎，不可能在专用数据集的构建速度和精度上有很强的表现，甚至大概率都没有这个能力。

而本文介绍的这个大数据时空语义分析 Spatio Agent，内置了多款构建垂类数据集的 MCP Tools，经过多次迭代，已经集成了海外所有主流社交媒体平台的时空文本的实时采集能力，然后交付后续 Agent 分析。

SpatioAgent 的做法是先判断你要分析的城市和时间范围有没有数据：有就进入对应分析分支；部分有就改用可分析的相邻窗口，并告诉你发生了什么；没有的绝不硬编数据，而是默默把这次数据缺口记下来。

实名讨厌那种“数据没有、但语气很满”的 AI，看似聪明，只有情绪，没有价值，对严谨的工程或者商业分析来说，这是一件很危险的事情。

所以系统里有一个专门的 Node，模型不猜不编，直接查本地数据覆盖范围，超出范围时做软重定向或直接说明无法分析。

说白了就是：能做就做，不能做就别装。

更具体地来说，当 Agent 的 trace 发现用户的分析任务缺少指定时间范围内、或者指定空间范围内的数据集时，他会记录本次缺失，多个用户投票加权得到的高优时空数据集会被 agent 捕获到，交由 human in loop 确认后，启动指定的 MCP Tool 开始获取数据预备下一次用户的分析。

还是和上文一样，考虑到各种限制，虽然它具有这种能力，线上的 SpatioAgent 被设计成在缺失用户需求数据集时，不会自动启动 MCP Tool 获取，而是只是默默地 trace，投票权高的才会被管理员看到确认后才调用爬取的 MCP Tool 。

目前只线上只运行着完马斯克的那个社交平台 X 的时空数据 SSE MCP Server 。初始数据集只澳大利亚的部分城市。