首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CodeGuide | 程序员编码指南

    手机 + Agent,这是要掀桌子!

    这 + agent,那 + agent,都是赋能,辅助提效。但手机 + agent,要掀桌子呀,这是要改变现有手机和APP厂商入口的格局。就像你开了个超市,别在你家开了个【超市入口】! 也有可能出新安卓/IOS+agent手机系统。路已经开了,看谁跑的快吧! 一、模型介绍 官网:https://github.com/zai-org/Open-AutoGLM Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容 用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。 四、其他资料 接下来,在phone + agent 这个方向,将有越来越多的模型和产品。检索:https://github.com/search?

    84311编辑于 2025-12-29
  • 来自专栏服务端技术杂谈

    从豆包和中兴的Agent手机说起

    将豆包的能力集成到手机操作系统中,让手机具备了AI Agent能力,成为了真正的AI手机。 用户只需要通过语音和豆包对话,豆包会通过调用手机操作系统的各种能力,比如通过操作UI的方式自动化完成任务。 后来荣耀在Magic7也做了AI手机,还在发布会现场演示了一口气点了3000杯瑞幸。 为什么大家都这么热衷于做一个AI手机呢? 也很简单,抢入口。 毫无疑问是手机操作系统,所以手机厂商如果有极强的研发能力的话,直接可以把Agent做到手机里面了,豆包也就没有了机会。 除了手机操作系统,其他的如智能眼镜也是新的机会,见:我很高兴看到理想发布智能眼镜 但所有手机上的AI Agent都有一个难以逾越的鸿沟,就是微信。 如果在豆包手机上,让豆包操作微信,会明确告诉你任务失败,不支持微信操作,其实这也是网络安全的考虑。

    9110编辑于 2026-03-11
  • 一手实测豆包手机助手,这就是当今手机Agent的天花板。

    感兴趣的朋友,可以去豆包手机助手的官网:https://o.doubao.com/ 我其实非常希望各大手机厂商,能跟豆包合作,把豆包手机助手接进去,说实话,这种Agent能力,还是得AI厂商自己干才行。 但是,瑕不掩瑜,它确实是我用过的agent也罢,手机助手也好,用着最顺手的一个。 一方面是它的使用过程,几乎可以用无感来形容。 尤其是在手机这个场景。 在手机上用agent和在电脑上用agent,还不太一样。 而手机的场景正好相反,大部分情况下就是一个即时性需求冒出来,但又不想自己手动去解决,想要用agent迅速解决。 所以手机agent主打的就是一个短平快,像贾维斯一样随叫随到,随时都拥有解决问题的能力。 而这一点,我不敢说豆包已经做到了,但我可以说,豆包已经走到了中段。

    1.8K10编辑于 2025-12-24
  • 来自专栏我爱计算机视觉

    一句指令帮你操作手机,最新多模态手机助手Mobile-Agent来了!

    ,今天来介绍一个用多模态agent实现手机操作助手的工作Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception ,通过纯视觉方案实现AI操作手机。 所谓手机操作助手,即用户输入指令,agent自动完成一系列手机上的操作,例如下面的这几个例子: 用浏览器查询比赛结果并写一个新闻 在TikTok刷短视频并且评论 在YouTube搜索视频并且评论 Mobile-Agent 操作定位 在大多数情况下,MLLM已经具备输出正确操作的能力,这体现在提供手机截图和用户指令后,这些模型往往能够生成正确的操作。 在每次迭代开始时,Mobile-Agent会获取手机屏幕的截图,通过观察系统提示、操作历史和当前屏幕截图,输出下一步操作。 如果Mobile-Agent输出的是结束,则停止迭代;否则,继续新的迭代。

    1.8K10编辑于 2024-02-06
  • 来自专栏学习之旅

    【软件】AI Agent:无需电脑的手机自动化助手AutoGLM

    AutoGLM For Android第三步:授予必要权限第四步:配置模型服务第五步:开始使用使用教程基本操作任务示例大全高级功能使用技巧常见问题Shizuku 相关权限相关操作相关模型相关前言前段时间智谱发布了手机自动化 AI Agent——Open-AutoGLM,但是部署过程非常麻烦。 方式适用场景持久性无线调试推荐,无需电脑重启后需重新配对ADB 连接有电脑时使用重启后需重新执行Root 授权已 Root 设备永久有效无线调试激活步骤(推荐) 提示:如果找不到开发者选项,请在「关于手机 连接任意 WIFI打开手机「设置」→「开发者选项」开启「无线调试」点击「使用配对码配对设备」等待 Shizuku 通知弹出,在通知内输入配对码完成配对打开 Shizuku 点击「启动」,等待启动完毕看到 打开微信,查看朋友圈最新动态购物搜索打开淘宝,搜索无线耳机,按销量排序打开京东,搜索手机壳,筛选价格50元以下外卖点餐打开美团,搜索附近的火锅店打开饿了么,点一份黄焖鸡米饭出行导航打开高德地图,导航到最近的地铁站打开百度地图

    3.3K02编辑于 2026-01-04
  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent

    那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 他们送了每个AI玩家一部,可以跑Agent的云手机。 这个概念,听起来可能有点复杂,但说白了,就是智谱在云端,给你开了一台只属于你的、7x24小时不关机的虚拟手机。 这也是第一个,为手机而生的通用Agent。 不过,我觉得最酷的最有价值的,其实是他们说8月底,下个版本马上就要上新的新功能: 定时任务。 AutoGLM+定时任务,绝对是绝配,是手机Agent最正确的打开方式。 比如,吃早饭。 我每天早上,大概9点40左右起床,洗漱一下,10点就得冲出门。 现在,有了智谱给的这台7x24小时不关机的AutoGLM,有了这个手机上的Agent,很多能真正解放你注意力的可能性,终于第一次变得真实起来了。 这也是第一个,手机上的Agent

    61210编辑于 2025-09-04
  • 腾讯云手机 Mobile Use Agent 与 OpenClaw 架构及部署应用解析

    一、 产品定位与核心亮点 技术定义: 基于 LLM大模型 + GUI Agent + 云手机 PaaS 架构的移动端智能体执行环境与个人AI智能助理解决方案。 大模型私有化部署测试:针对开发者需验证自研 Agent 或开源大模型(如 Open-AutoGLM)落地能力的场景,提供即开即用、可内网连接的标准化云端虚拟设备。 三、 应用框架和功能介绍 1. 功能框架 Mobile Use Agent 执行闭环:构建了“用户Prompt下发 -> LLM 核心解析 -> Phone-Agent 指令转换 -> 云手机实例接收指令与回传截图”的数据双向交互架构 高度开放与定制化:支持开发者接入自有 Agent 及模型;并支持将配置好的复杂环境(如安装好 adbkeyboard 及 ADB 变量的环境)打包为自定义镜像,实现后续同类实例的快速秒级克隆。 案例一:基于 Open-AutoGLM 的电商应用自动化检索 背景:验证 Mobile Use Agent 在真实云手机环境中,对自然语言转化为多模态 UI 交互指令的执行准确度。

    54420编辑于 2026-03-20
  • 来自专栏服务端技术杂谈

    为了AgentAgent

    主要讲的是如何选取Agent主流框架的逻辑。 讨论了两种路径,workflows和agent。 我理解大概率是为了AgentAgent所找的一个所谓具有代表性的例子吧。 而且你现在用Agent,未来扩展性也是一个问题。 业务想要扩展一个新的场景逻辑,你敢直接用Agent承接吗? 有人说,我们会在Agent上线之前,充分评估模型,确保Agent可以适配新的业务场景需求。 但是业务不会等你Agent ready之后再开量啊。 而Agent更适合人机协作,比如AI Coding或其他chatbot,因为有个人在旁边可以为Agent的不可控进行兜底。 大家用Agent的目的很多时候并不是从第一性原理出发,很多时候都是为了AgentAgent,想一想Agent真的比workflow好吗?

    14610编辑于 2026-03-11
  • 来自专栏机器之心

    一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

    机器之心专栏 机器之心编辑部 一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。 实现手机操作助手成为了可能。 本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual 操作定位 在大多数情况下,MLLM 已经具备基本的操作手机的能力,在提供手机截图和用户指令后,这些模型往往能够生成正确的操作。 在每次迭代开始时,Mobile-Agent 会获取手机屏幕的截图,通过观察系统提示、操作历史和当前屏幕截图,输出下一步操作。

    85410编辑于 2024-02-06
  • AutoGLM深夜开源,千千万万个手机Agent要站起来了。

    直接把他们的手机Agent,也就是AutoGLM开源了。 而现在,在豆包手机助手被全面封禁之际,这个手机Agent的鼻祖,选择用开源的方式,为这个技术世界,再添一把新的柴火。 但是再怎么说,它也是现在为数不多的,完全开源的手机Agent方案了。 而一个开源的手机Agent呢,如果入口这个东西,不再是某家公司的APP图标,而是我自己部署在家里的一个Agent呢,会怎么样? 现在的AutoGLM,你当然可以说它跟真正的贾维斯相比还有距离,但你不能否认,那个我可以自己搞一个手机Agent手机助手的种子,已经从此以后不会再消失了。

    82310编辑于 2025-12-21
  • 来自专栏机器之心

    Mobile-Agent-v2问世,自动化手机操作能力再上新台阶

    今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力,引起了AI界和手机厂商的广泛关注,仅5个月的时间就已在Github上收获了2,000个Star。 Mobile-Agent基于纯视觉方案,通过视觉感知工具和操作工具实现智能体在手机上的操作,而不依赖其他系统级别的UI文件。 用户只需要把目的地输入给Agent,便能够实现规划、决策和反思的流程来帮用户完成叫车,适用于老人及视障人群,解决他们不会使用或者无法使用手机APP的问题。 作者团队同样公布了Mobile-Agent-v2在手机上实操的演示视频。首先是一个跨应用操作的例子。用户需要Mobile-Agent-v2查看聊天软件中的未读消息,然后按照消息的要求完成任务。 在手机操作任务中,智能体通常需要通过多步操作才能完成任务要求。每次操作时,智能体都需跟踪当前任务进度,即了解之前的操作完成了哪些需求,从而根据用户指令推断下一步的操作意图。

    61410编辑于 2024-06-17
  • Hermes Agent 消息网关让你手机随时指挥 AI

    HermesAgent的移动体验配置消息网关后,你的AI助手随时在手机上:场景一:通勤路上展开代码语言:TXTAI代码解释你(Telegram,地铁上):查一下线上服务的错误日志Hermes:最近1小时共 一个Agent,多个入口展开代码语言:TXTAI代码解释┌──Telegram(手机)├──飞书(手机/电脑)你───────→Hermes─├──企业微信(手机/电脑)├──钉钉(手机/电脑)├──Discord (手机/电脑)└──WebUI(浏览器)所有入口共享同一套记忆和技能,跨平台对话连续。 消息网关需要Agent持续在线运行,建议部署在云服务器上。推荐腾讯云Lighthouse:玩转HermesAgent|使用Lighthouse快速部署云上HermesAgent。 立即前往腾讯云官网选购HermesAgent专属云服务器FAQ:Q1:手机上操作和电脑上一样流畅吗?A:对话体验一样流畅。但涉及大量代码展示或长文档的场景,电脑上的阅读体验会更好。

    2500编辑于 2026-04-16
  • 来自专栏Agent Apps

    告别Agent Skills, 拥抱 Agent Apps

    这正是面向Agent的TUI(AOTUI)要回答的问题。是什么:一种新的界面范式面向Agent的文本用户界面(AOTUI)是一种以LLMAgent为一等公民的界面范式。 没有鼠标点击,Agent调用Tool/Funtion。没有视觉提示(颜色、布局、头像),数据通过文本引用来引用。简言之:AOTUI就是当你为模型而非人类设计时,用户界面的样子。 AOTUI如何重建桥梁AOTUI为没有鼠标的Agent解决了问题的三个部分——识别、选择和触发。 下一步:[认识Agentina→](https://agentina-agent-apps.vercel.app/en)—基于AOTUI构建的Agent应用宿主。

    17810编辑于 2026-03-06
  • 来自专栏XINDOO的专栏

    Agent设计模式——附录 G - 编码 Agent

    最高效的开发团队不仅将任务委托给 Agent,更通过整套复杂编码 Agent 实现自我增强。这些 Agent 扮演着不知疲倦的专业团队成员角色,放大人类创造力并显著提升团队扩展能力与开发速度。 Agent 虽能力强大,但定位为支持性协作者。开发者指导具体 Agent 调用、提供必要上下文,并最关键地——对 Agent 生成输出行使最终裁决权,确保其符合项目质量标准与长期愿景。 本框架致力于在人类领导与底层模型原始能力间建立最纯净对话通道,确保每个 Agent 均以峰值潜力运行。 该框架构建为专业化 Agent 团队,每个 Agent 针对开发生命周期中的核心功能专门设计。 专业化 Agent 团队: 通过定向提示工程,我们可构建专业分工的 Agent 团队,每个成员针对特定开发任务深度优化。 流程 Agent:代码质量监督员 批判分析: Agent 执行初步审查,识别潜在缺陷、编码规范违规及逻辑漏洞,功能类似静态分析工具。 深度反思: Agent 对自身批判进行元分析。

    42010编辑于 2025-10-27
  • 来自专栏Python

    理解 Agent2Agent(A2A)、Agent to Agent和链式函数调用的区别与联系

    在构建 AI 智能体系统或多模块任务执行架构时,我们常会遇到三个关键术语: Agent to Agent 链式函数调用 Agent2Agent (A2A) 它们看似类似,甚至常被混用,但实际上分别属于不同的抽象层次 两个 Agent 间的信息传递行为 多智能体协同、机器人通信 Agent2Agent (A2A) 系统架构层 一个 Agent 主动调用其他 Agent 协作解决问题 LLM Agent 编排、AutoGen Agent2Agent 像一个“项目经理型 AI”会调度多个“专家型 AI”组成动态团队,解决复杂任务 类比一句话总结: 链式函数调用像拼装生产线,Agent to Agent像员工交流,而Agent2Agent Agent to Agent(通信范式) # 每个 Agent 通过消息交互完成任务 agent_A.send("get data") agent_B.receive("get data").send( 中的 planner_agent.plan() → 调用搜索、总结、编码 agent 七、总结一句话 链式函数调用解决“流程”,Agent to Agent定义“协作”,而Agent2Agent打造

    93910编辑于 2025-07-10
  • 来自专栏我爱计算机视觉

    全新Mobile-Agent-v2发布,自动化手机操作助手全面升级!

    Mobile-Agent 于今年年初发布,凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,它已经在Github获得了2,000个Star。 该系统采用纯视觉方案,通过视觉感知工具和操作工具完成智能体在手机上的操作,无需依赖任何系统级别的UI文件。 根据魔搭团队发布的演示视频,ModelScope-Agent拥有了使用Mobile-Agent-v2完成自动化打车的能力。 作者团队在社交媒体和Github发布了一系列展示Mobile-Agent-v2在手机上实操的视频。下面的视频中展示了一个跨应用操作的实例。 Mobile-Agent-v2的技术实现将在下面进行介绍。在手机操作任务中,智能体通常需要通过多步骤来满足任务需求。

    1.2K10编辑于 2024-06-17
  • 来自专栏红队蓝军

    java agent使用与agent内存马

    什么是java agent 本质是一个jar包中的类,有两种实现,第一种是通过permain()函数实现。 Java agent的使用方式有两种: 实现premain方法,在JVM启动前加载。 实现agentmain方法,在JVM启动后加载。 agent基础使用 环境搭建 agent项目源码 agent: package com.naihe; ​ import java.io.IOException; import java.lang.instrument 并没有使用字节码相关的库 二,修改MANIFEST.MF 使用解压工具打开MANIFEST.MF,并修改内容 Premain-Class: com.naihe.agent Agent-Class: com.naihe.agent : com.naihe.agent Agent-Class: com.naihe.agent Can-Redefine-Classes: true Can-Retransform-Classes: true

    1.6K20编辑于 2022-04-13
  • 来自专栏红队蓝军

    java agent使用与agent内存马

    什么是java agent 本质是一个jar包中的类,有两种实现,第一种是通过permain()函数实现。 agent基础使用 环境搭建 agent项目源码 agent: package com.naihe; import java.io.IOException; import java.lang.instrument 使用解压工具打开MANIFEST.MF,并修改内容 Premain-Class: com.naihe.agent Agent-Class: com.naihe.agent Can-Redefine-Classes /12107/Desktop/agent.jar 动态修改class 清除之前的内容 正常运行 运行attach 可以看到Demo的test方法已经被修改了 agent内存马 搭建一个简单的 命名为agent2 打包好的jar就在如下位置 修改MANIFEST.MF 老样子在前面添加 Premain-Class: com.naihe.agent Agent-Class: com.naihe.agent

    1.5K10编辑于 2022-05-17
  • 来自专栏Linux初学者

    AI Agent涌向移动终端,手机智能体开启跨端跨应用业务连接新场景

    AI Agent涌向移动终端,手机智能体势不可挡 还没搞清楚什么是AI Agent手机Agent就已经横空出世 AIGC为何涌向移动端?背后有哪些逻辑?什么是手机智能体? 一文看明白 科技大厂、手机厂商、企服领域都在发力,手机智能体成AI Agent新趋势 AI Agent迎来移动端大爆发,手机智能体将成企业AIGC新标配 AI Agent移动应用大升级,手机智能体开启跨端跨应用业务连接新场景 这些报道没有具体说明这款Agent所接管的设备是PC还是手机,不过ChatGPT有移动端,能够在手机或者平板上调用这个Agent是迟早的事。 2月初,阿里巴巴与北京交通大学联合推出了一款全新的手机操作智能体框架Mobile-Agent。该框架的核心优势在于其纯视觉解决方案。 传统的手机操作方式往往需要依赖XML等标记语言以及系统元数据,而Mobile-Agent则完全摒弃了这些需求。

    50610编辑于 2024-03-07
  • 来自专栏后端云

    cyborg agent

    cyborg agent提案 问题描述 Cyborg的需要一下功能:包括在计算机节点上管理代理,定位加速器,监控加速器状态和协调加速器驱动程序。 提议变更 cyborg agent驻留在各种计算机主机上,并监控对计算节点上的加速器进行监控。 如果某一个计算节点上加速器存在但没有设置,代理将通知conductor并建议手动检查。 用cyborg agent来监控加速器的状态并报告给conductor,并通过这些报告信息来帮助调度和操作。 Cyborg Agent将保留本地缓存数据,目的是在系统中断或连接丢失不会失去加速器状态。 cyborg agent具体内容 Cyborg代理将安装在正在或者可能会使用加速器的计算节点上。 实例连接: 一旦生成实例,需要连接到主机上的某个加速器,Cyborg服务器将向Cyborg代理发送消息,通知agent新实例。

    1.2K50发布于 2018-10-24
领券