项目背景:2025 年 12 月,字节跳动联合中兴发布了「豆包手机助手」,可自动操作手机完成复杂任务。但首批工程机一机难求,二手市场价格居高不下。 于是有了「肉包」 —— 一个完全开源、基于视觉语言模型(VLM)的 AI 手机自动化助手。 名字来源很简单:作者不爱吃素。
特性 | 肉包(Roubao) | 豆包手机助手 | 其他开源方案 |
|---|---|---|---|
是否需要电脑 | ❌ 不需要 | ❌ 不需要 | ✅ 多数需要 |
是否依赖专用硬件 | ❌ 不需要 | ✅ 需要(3499+) | ❌ 不需要 |
实现语言 | ✅ Kotlin(原生) | ✅ 原生 | ❌ 多为 Python |
是否开源 | ✅ MIT | ❌ 闭源 | ✅ 开源 |
架构设计 | ✅ Tools / Skills 双层 | ❓ 未公开 | ❌ 通常无明确分层 |
自定义模型 | ✅ 支持 | ❌ 仅豆包模型 | ⚠️ 部分支持 |
肉包的核心设计理念,是将复杂的 GUI 自动化过程拆解为两个正交维度:
Tools 层负责执行最底层、可复用的物理或系统操作,包括但不限于:
search_apps:智能搜索已安装应用(支持拼音与语义匹配)。deep_link:通过协议直接跳转到 App 内指定页面。shell / http:执行系统命令或调用外部 HTTP API。screenshot / tap / swipe:基础屏幕采集与触控操作能力。这些工具本身不具备“目标感”,只负责可靠执行。
Skills 层面向最终用户,负责将自然语言意图映射为可执行策略,支持两种核心模式:
肉包采用 Material 3 设计规范,整体风格简洁现代,支持流畅动画与完整的中英文双语切换。


出于系统安全考虑,Android 普通应用默认无法:
传统解决方案通常依赖 电脑端 ADB,这与“随时随地自动化”的目标相悖。
Shizuku 提供了一种优雅且合规的中间方案:
直接对肉包输入自然语言指令,例如:
如需自行构建与安装:
# 克隆仓库
git clone https://github.com/Turbo1123/roubao.git
cd roubao
# 构建并安装
./gradlew assembleDebug
./gradlew installDebug