AutoGLM:让 AI 变成你的私人助理从官方介绍来看,AutoGLM 已经能够帮助用户完成诸多日常任务,比如: 电商购物:比如在双十一期间,我想购买一部小米 14 旗舰手机,只需对 AutoGLM 语音导航:无需手动输入地址,只需告诉 AutoGLM 目的地,它便会自动打开地图并开始导航。 自动生成文本:写好评、回复消息、甚至是撰写社交媒体帖子,AutoGLM 都能轻松搞定。 AutoGLM:AI 交互方式的不同在 AI 代理(Agent)领域,AutoGLM 不是唯一的探索者。 AutoGLM 的核心优势相比之下,AutoGLM 的重点在于移动端交互,核心优势包括: 无需复杂 API 调用:用户只需语音或文字指令,即可让 AI 代为操作手机。 更贴近日常生活:手机作为最常用的设备,AutoGLM 让 AI 交互变得更自然。
这个产品叫做,AutoGLM沉思版。 聊回到AutoGLM沉思版。 你可以简单地把他理解成,DeepResearch和AutoGLM的结合。 DeepResearch我已经安利过很多很多遍了,我觉得我还是有必要再在这里强调科普一下。 AutoGLM我也写过两三次,从他们第一次发布开始我就一直在追踪了。 参见这一篇:智谱AI悄悄发布AutoGLM,这一次,贾维斯真的要成现实了。我就不过多赘述了。 虽然产品设计上,有各种各样的问题,但是不可否认的是,AutoGLM沉思版,就是当今国内第一个真正的DeepResearch产品,而且还加入了AutoGLM的能力。 所以如果你想用有AutoGLM能力的AutoGLM沉思版,那你就得去他们官网:https://autoglm-research.zhipuai.cn/ 下载桌面端产品,跟着教程配置一下权限,就OK了。
今天,我们想把这句话套用到智谱的AutoGLM上。 短短一个月的时间,AutoGLM的能力不再局限于点外卖、朋友圈点赞,带来了多个新进展: AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨App执行任务; AutoGLM开启“全自动” 顾名思义,AutoGLM的场景正是用AI控制手机,只需要一句语音指令,AutoGLM即可模拟人类操作手机来完整任务。 例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。 以此类推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的场景分别是浏览器和电脑端,并且有一些智能手机上做不到的功能。
终于,智谱AI在今天的CNCC上,发布了一个可以称的上是“王炸”的产品: AutoGLM。 而我,其实已经在3天前就拿到了AutoGLM的内测,在被封印了3天之后,也终于可以发出这篇文章。 3天前第一次使用AutoGLM的那晚,它给我带来的震撼,给我带来的头皮发麻,到今天,我依然记忆犹新。 但,AutoGLM给我的惊喜,还远远不止这点东西。 它完全可以代替我,处理日常的人际交往。不同于普通的对话机器人,AutoGLM是人狠话不多的行动派,一个真正的Agent。 比如,我的微信。 这事后,我就可以让我的AutoGLM“贾维斯”出场,帮我进行关键的社交维系。 但是现在,时隔整整一年半以后,AutoGLM继承了AutoGPT的意志。 把真正的自主人工智能,带向了千家万户。 当然AutoGLM本身现在也不是全能的。
今天我准备简单的跟大家聊一下智谱新发布的AutoGLM沉思这么一个具备自我思考探索能力的智能体。 对于使用你既可以下载AutoGLM的桌面客户端,也可以直接安装Crome浏览器的插件进行使用。我选择下载客户端进行使用。当然在官网首页介绍中还给出了很多参考范例,大家也可以基于这些已有范例进行体验。 整个搜索AutoGLM差不多迭代了10轮,花费了10分钟左右的时间完成输出,在到了第六轮迭代的时候找到我的文章和观点,但是没有准确识别出我账号的名称。截图如下: 最后给出了完整的观点总结输出。 所以我把这个问题丢给智谱的AutoGLM沉思以后,其实他开始对我整个问题的理解还是相当到位的,他会详细规划出我整个差旅的行程住宿的要求,然后拿到这些信息以后,他就开始搜索相关的网页,或者是搜索相关的订酒店订机票的网站
这两天AI行业最大的新闻,就是智谱突然又开源了autoGLM,为手机端提供了一个开放式的、谁都可以利用的agent平台。智谱开源的时间节点非常好,因为就在豆包手机被拦截后。 autoGLM开源,其意义不在于变得更开放,而在于,AI第一次以开源方式,试图成为手机操作系统的一部分。 autoGLM的动作不是技术演进,而是OS级布局。这才是真正有高度的战略操作。3过去十年,手机厂商都想超越安卓、对抗iOS,但没有一次成功。 autoGLM开源,其实是为硬件厂商提供了入场券。42026年,我预计会出现一场三方战争。第一是硬件厂商争夺AI系统入口。 智谱推动的autoGLM开源,只是第一声枪响。真正的战争,还没开始。
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 目录前言快速开始第一步:安装并激活 Shizuku第二步:安装 AutoGLM 而AutoGLM For Android 是一款基于 Open-AutoGLM 项目深度改造的 Android 原生应用,彻底摆脱对电脑和 ADB 连接的依赖,部署起来非常方便。 Keyboard第四步:配置模型服务进入「设置」页面,配置 AI 模型 API:推荐配置(智谱 BigModel) 目前 autoglm-phone 模型限时免费! A: 手动操作:系统设置 → 应用 → AutoGLM → 权限 → 开启「显示在其他应用上层」Q: 键盘无法启用? A: 手动操作:系统设置 → 语言和输入法 → 管理键盘 → 启用 AutoGLM Keyboard操作相关Q: 点击操作不生效?
智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 大概率是出于隐私保护问题,所以AutoGLM选择拿掉了微信,因为之前的AutoGLM1.0的时候使用的本地版,对微信的支持是非常好的。 (PS:我强烈建议在使用AutoGLM之前,把一些APP都在云手机登上,强烈建议用小号,然后保存登录状态,要不然过程中登录还挺烦的) 在发送任务之后,AutoGLM拆解了任务,然后就打开了云手机,找到了最近的一家烧烤店 但如果,有了AutoGLM和定时任务,一切都变了。 我可以直接给AutoGLM下一个长期的、模糊的指令: 从现在开始,每个工作日的早上9点,帮我点一份早餐送到家。 现在,也都可以让AutoGLM自动去处理。 人的生活本就不应该被这些重复且无聊的琐碎小事消耗。
3 月 31 日,智谱官宣了新一代 Agent 产品「AutoGLM 沉思」。 相比于此前 OpenAI 的 Deep Research 等产品,「动手能力」是 AutoGLM 沉思最大的亮点之一。 「AutoGLM 沉思」的面世,扛起了国产 AI Agent 落地的大旗。且在今天的发布后,「AutoGLM 沉思」即全量上线,免费开放给每一位用户。 到这里,我们都应该看出来「AutoGLM 沉思」的优势何在了。 「AutoGLM 沉思」在一般 Deep Reseach 的基础上,叠加了 AutoGLM 操作电脑浏览器的环境交互能力,有效促进了模型思考的宽度和深度,自然输出的内容也就更全面了。 目前,AutoGLM 沉思的平均思考步骤在 20 步以上,拥有处理复杂问题的能力。 目前上线的是「AutoGLM 沉思」Preview 版本,比较擅长 Research 相关场景。
甚至,还抢到了AI给大家发出的200元红包,只能说,谢谢AutoGLM,谢谢老板。 一个月前,智谱载CNCC会议上,正式发布了AutoGLM。 升级版AutoGLM、AutoGLM-Web、GLM-PC。 分别对应手机、浏览器、电脑。 三个系统,三种形态。 升级版AutoGLM 一个月前,我已经深度体验过AutoGLM了,也给大家做了很多的测试。 AutoGLM-Web 基于AutoGLM技术打造的电脑浏览器版本,支持知乎、Github、芒果TV、百度搜索、微博等等N个网站。 用AutoGLM现在拉了一个面对面建群。 用又用AutoGLM,给群里发了2万块钱的红包,现在直接氛围被推向了最高潮。 最能拉动氛围的手段,往往都是最朴实无华的场景。
具体来说,Open-AutoGLM 由一个手机端智能助手框架 Phone Agent 和一个 9B 大小的模型 AutoGLM-Phone-9B 共同组成。 一手实测 Open-AutoGLM 究竟有多强? 理论说得再多,不如实战。下面我们就来看看开源版的 AutoGLM 表现究竟如何。 首先,来一个简单任务:发微信。 面对一大堆待更新的 App 和时不时的弹窗,AutoGLM 耐心地一个个点击。 有趣的是,在更新过程中,AutoGLM 还遭遇了一次「误触」。 实测过程中,我们发现 AutoGLM 的执行逻辑是通过分析屏幕截图来确定下一步。也因此,AutoGLM 具有非常高的通用性和普适性,并不局限于智谱官方推荐的应用。 Open-AutoGLM 的全面开源,意味着开发者、研究者与个人爱好者,都可以沿用 AutoGLM 的执行框架,在自己的产品中复现或延展这个「能动手的 AI」。
据介绍,14 天前,智谱针对 AutoGLM 沉思小范围开展了一项秘密测试。 此外,智谱还将于 4 月 14 日开源 AutoGLM 沉思核心链路的模型和技术。 AutoGLM 沉思的技术演进路径包括:GLM-4 基座模型 → GLM-Z1 推理模型 → GLM-Z1-Rumination 沉思模型 → AutoGLM 模型。 AutoGLM,成为 AutoGLM 沉思的“手脚”。 AutoGLM 的出现也意味着大模型首次跳出了 Chatbot 的框架,初步具备了与现实世界互动的能力。 最新发布的 AutoGLM 沉思版,其背后的 AutoGLM 能力也随之演进。
直接把他们的手机Agent,也就是AutoGLM开源了。 开源链接在此:https://github.com/zai-org/Open-AutoGLM 挺感慨的,一年前的10月25号,AutoGLM在CNCC上正式发布,那时候我也做了AutoGLM的全网首发的评测 说回到智谱的这个开源版本的AutoGLM。 这次其实开源的是Phone Agent这个手机端智能助手框架,还有一个AutoGLM-Phone-9B的模型,共同组合成了这次开源的AutoGLM。 而这次智谱的AutoGLM,就给了一个中间态的解法。 现在,AutoGLM一开源,往后短短几个月,肯定不会只有它一个。
lang=zh而且它也已经上线了网页端的插件,可以在谷歌浏览器上进行下载从官网AutoGLM的介绍中可以看到,它可以帮我们完成淘宝下单。 比如,我想在双十一这个购物节买一部小米14手机,还能用AutoGLM智能助手在淘宝上查价格。只要对AutoGLM说句话,它就会自动打开淘宝,找到小米14手机的最新价格给我看。 比如下面视频中,利用AutoGLM导航到最近的一个咖啡店。相信大家肯定对于日常怎么写好评这件事情很苦恼。你只要一句话,AutoGLM可以帮助你写一段五星好评话,简直是懒惰人的福星。 区别之处可能就在于Claude的Computer Use更多的是应用在电脑端进行操作,而AutoGLM则侧重于在手机端进行交互。 用户只需用简单的语音指令,AutoGLM 就能完成点外卖、刷社交媒体、做笔记、订票等日常任务,让手机操作变得更简单。同时AutoGLM的主战场在手机端,这就使得AI的应用更加贴近人们的日常生活。
接下来,小傅哥带着大家部署下 AutoGLM 模型,以及讲解如何配置使用和最终的效果。 目前 AutoGLM 还是面向研发使用的阶段,不是直接可以调用的 API,所以要自己部署。 一、模型介绍 官网:https://github.com/zai-org/Open-AutoGLM Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容 (如果手机不是这样的,可以百度搜下设置) AutoGLM-Phone-9B/AutoGLM-Phone-9B-Multilingual 模型镜像地址:https://huggingface.co/zai-org /AutoGLM-Phone-9B \ --port 6008 model 由 Open-AutoGLM 默认的 zai-org/AutoGLM-Phone-9B 从 https://huggingface.co /zai-org/AutoGLM-Phone-9B/tree/main 下载,修改为已经下载好的本地的路径地址。
3月31日的智谱OpenDay上,智谱发布了最新的Agent产品——AutoGLM沉思。 作为全球首个集深度研究与实际操作能力于一体的Agent,AutoGLM沉思能够像人一样深度研究和反思、像人一样感知世界、像人一样使用工具。 01 现场接单写稿,AI Agent的“魔力”变现了按照惯例,先来看下智谱官方给AutoGLM沉思的定义:“AutoGLM沉思是一个能探究开放式问题,并根据结果执行操作的自主智能体(AI Agent)。 刚刚发布的AutoGLM沉思,正是基于智谱自研的推理模型GLM-Z1-Air训练的,融入了AutoGLM的动手操作能力,让AI Agent再次向前迈了一步:不仅能够思考,还能主动行动,实现“边想边干”的目标 特别是测试了AutoGLM沉思在更多场景下的表现后,我们更加确信:所谓的“AI Agent元年”绝非是一句口号,正渐渐成现实。
今天,智谱在 2025 中关村论坛上发布最新的自主Agent 产品 AutoGLM 沉思,可以帮助你自动化执行任务,非常厉害,接下来我将带你一起感受一下它的厉害之处! 深度思考+动手执行 AutoGLM沉思是智谱发布的最新Agent产品,它基于自研推理模型GLM-Z1-Air,结合了AutoGLM的动手操作能力,能够模拟人类进行深度思考和执行任务,如搜索网页和生成深度报告 打开“沉思”就可以体验 体验方式二:AutoGLM沉思 在浏览器搜“AutoGLM”到官网,下载智谱清言PC客户端。 不同的是,「沉思」不能操作邮箱/购物网站/视频网站等,「AutoGLM沉思」在「沉思」的基础上,增加了AutoGLM的在电脑浏览器上的操作功能,能够自动浏览和操作网页,获得更丰富的信源。 AutoGLM沉思会对用户的请求进行深度的意图分析,会要求提供缺少的信息, AutoGLM沉思在去第三方网站进行搜索时,会进行登陆验证,这一步完全由用户可控的,需要用户进行扫码/验证登陆,设立100多秒的等待时间
此次,智谱给 AutoGLM 进行了一系列能力升级。基于这些新能力,我们看到了一些新玩法。 二是「跨 App」,即 AutoGLM 在更强大泛化能力和思维链的加持下,支持复杂任务的跨 App 操作。 再比如跨不同 App 购物,AutoGLM 也能一气呵成。 更多新玩法进一步拓展了 AutoGLM 的功能,包括「短口令」,类似于手机上的快捷指令。 AutoGLM 的自主执行能力还扩展到了网页端。智谱在浏览器(Google Chrome 和 Microsoft Edge)的智谱清言插件上提供了 AutoGLM-Web 功能。 10 月发布之初,AutoGLM 尚只能在单个应用、短距离任务上展现能力。
此前,开源社区涌现出的Open-AutoGLM项目引起了广泛关注。很多人误以为配置私有化AI手机需要极高的技术门槛,其实只要掌握正确的方法,它比你想象的要简单得多。 2.前置环境配置本文章为开源的保姆级安装教程:https://github.com/zai-org/Open-AutoGLM所谓“工欲善其事,必先利其器”。 技术栈对比:传统自动化vsAIAgent为了让你更直观地理解Open-AutoGLM的优势,我们将其与传统的手机自动化工具(如按键精灵、Auto.js)进行对比。 传统脚本换个APP分辨率就失效了,但AutoGLM靠的是“理解”而非死记硬背,它能像人类一样看懂界面布局,这意味着你不需要为每个APP写专门的代码,一套逻辑通吃大部分应用。 总体来说:我认为,Open-AutoGLM所代表的AIAgent技术栈,其优点远远大于缺点。目前的连接延迟和推理误差,随着模型算力的提升和边缘计算的发展,终将得到解决。
他们也正式开卷跟智谱AutoGLM一样自主人工智能了。 短短一周内,已经有四个公司爆出来要发布类似的产品了,其中三个已经悄悄发布产品:Anthropic的Claude,智谱的AutoGLM和微软的OmniParser。这些产品的能力有目共睹。 上周五智谱的AutoGLM出来之后,在金融圈直接爆了,连智谱AI概念股都出来了。 自主人工智能,好像瞬间点燃了AI圈的热情。 又开启了新一轮的用户心智的抢占。 最后,再简单说说AutoGLM这种能力,大概是怎么实现的,具体细节他们也都没透露,我只能根据我的调研结果,进行一些猜测,不过AutoGLM团队最近应该会发个技术报告,到时候可以关注一下。 Claude的Computer Use和智谱的AutoGLM,都有自己的一堆问题,也远远没到一个算是完美产品的地步。 但这毕竟也只是刚刚开始。 当一切路径明确。 两个月时间。 可能,一切就变天了。