科大讯飞 | 资深架构师 (已认证)
系列说明:这是 RAG 工程化系列第三篇。前两篇我们完成了从 Naive 到 Advanced 的进化——把基础工程做到极致,把准确率从 38% 推到 87%。...
最近体验了不少 AI 产品,我越来越在意一个问题:当 AI 从回答问题走向主动做事,它做出的判断,最后由谁负责?
系列说明:这是 RAG 工程化系列第二篇。第一篇我们拆了 Naive RAG 的 8 颗雷,得出一个反直觉的结论:90% 的"模型不够好",其实是"工程没做好"...
2026年6月初,AI行业被一句内部宣言震动了—Chat is Dead(聊天已死)。这不是某个竞争对手的嘲讽,而是来自 OpenAI 内部一位高级员工的断言。
很多的企业已在生产环境部署 Agent,团队将"质量评估"列为部署首要障碍时,Agent 评测已不再是锦上添花,而是生死线。
每个职场人都听过这句话。开会吵架了,领导说"我们对事不对人";绩效面谈,HR说"这次评估对事不对人";同事间起了冲突,有人说"我下面说的对事不对人啊"。
过去两年,资本市场对 AI 的信仰近乎狂热。但从上周开始,华尔街用真金白银投出了不同意见—Meta 宣布考虑增发数百亿美元股票融资后,股价应声大跌,拖累纳斯达克...
秦腔是一种很老的东西。《主角》里,忆秦娥从一个烧火丫头,靠着不顾死活的练功,一步步挤进了那个属于戏曲的黄金时代。彼时剧院场场爆满,名角儿走在街上会被围堵,人们愿...
你的 AI Agent 记住了所有事,却不知道该忘掉什么。更糟的是——攻击者正在利用这一点。
三年前我接手过一个客服系统的 AI 改造。需求很简单:把原来的关键词匹配换成大模型问答。我们花两周接上了模型,上线第一天就翻车——用户平均等待从不到一秒涨到六七...
你还记得最后一次打开天涯是什么时候吗?也许是2023年4月1日之前某天,你随手点开一个帖子,像往常一样看看鬼话、天涯杂谈、情感天地,然后关掉浏览器,觉得它永远都...
如果你只看 benchmark 对比图,大概率会觉得索然无味—SWE-Bench Verified 从 64.3 涨到 69.2,OSWorld 从 82.8 ...
说这句话的人叫 Demis Hassabis。他是 Google DeepMind 的 CEO,2024年诺贝尔化学奖得主,AlphaGo 和 AlphaFol...
最近在某音上看到某些AI创业者Y某某,说“不懂代码反而是使用AI的优势”,理由是能跳出技术细节,让AI自由发挥。作为一个在软件行业里面摸爬滚打了快二十年的老码农...
2023年:GPT-4发布,"通用人工智能"成为全民话题,但本质上是"更强的语言模型"。
2026年5月25日,上海,IEEE国际电路与系统研讨会(ISCAS)。华为半导体总裁何庭波登台,没有炫目的灯光秀,没有PPT上密密麻麻的数据——她只讲了一件事...
斯坦福数字经济实验室花了5个月,采访了41家公司、51个成功部署案例,写了一份不吹牛的AI实施手册。
上周,Salesforce 宣布推出 Headless 产品—开放 API,让 Agent 直接读写数据,不再依赖传统的可视化界面。a16z 合伙人 Seema...
Harness 的核心定位是 "AI for Everything After Code"——专注代码提交之后的全链路智能化:构建、测试、部署、安全、成本治理与...