用 Skills 自动生成测试用例：一套可落地方案

原创

AI智享空间

发布于 2026-06-08 22:31:52

8310

文章被收录于专栏：效能提升效能提升软件测试

有人问过我一个问题：“你们用 AI 生成测试用例，质量真的过关吗？”

我当时的回答是：“取决于你怎么用。”

这个回答听起来像在回避，但它恰恰是这件事的核心。很多团队尝试用 AI 生成测试用例，最终以失望收场——不是因为 AI 不够聪明，而是因为他们把一件需要设计的事情，当成了一件只需要“问一句”的事情。

Skills 驱动的测试用例生成，和“把需求文档丢给 ChatGPT 让它写用例”，是两件完全不同的事。前者是一套工程化的方案，后者是一次碰运气的实验。

这篇文章想做的，是把前者讲清楚——不只是“能做什么”，更是“怎么做、做到什么程度、踩过哪些坑”。

一、为什么“直接问 AI”行不通

在讲方案之前，我们先把反面案例说清楚，因为很多人正在重蹈这个覆辙。

典型的错误用法是这样的：把一份 PRD 或接口文档复制粘贴给 AI，然后问：“帮我写这个功能的测试用例。”

AI 会给你一份看起来很完整的用例列表。格式整齐，场景分类清晰，正向负向都有。然后你发现：

边界值不对——AI 不知道你们系统的数值约束
业务逻辑有误——AI 不了解你们特有的规则（比如某个状态只有 VIP 用户才能触发）
缺少历史高频缺陷场景——它不知道你们踩过什么坑
格式无法导入工具——和你们的测试管理平台完全对不上

问题的根源在于：AI 没有你们团队的上下文。它给你的，是一份基于通用常识的用例，而不是基于你们业务的用例。

Skills 解决的正是这个问题。它的本质，是把你们团队的上下文、业务规则、历史经验，结构化地注入 AI 的判断逻辑里。

二、Skills 方案的整体架构

在动手之前，先建立一个整体视图。一套可落地的 Skills 测试用例生成方案，由三个层次组成：

输入层决定了 AI 能“看到”什么。输入越结构化、越完整，输出质量越高。

Skills 层是核心。它决定了 AI 用什么逻辑来处理输入、生成什么样的输出。这是需要投入最多设计精力的地方。

输出层决定了生成结果能否真正进入工作流。格式不对，一切都是空谈。

接下来，我们逐层拆解。

三、输入层：给 AI 喂什么，比让 AI 做什么更重要

3.1 结构化接口文档

最理想的输入是 OpenAPI（Swagger）格式的接口文档。它天然包含了参数名称、类型、是否必填、枚举值、示例值等信息，AI 可以直接解析并推导测试场景。

如果你们没有维护 OpenAPI 文档，退而求其次，可以提供以下信息的组合：

接口名称：用户登录
请求方法：POST
路径：/api/v1/auth/login
请求参数：
- username（string，必填，长度 6-20，仅允许字母数字下划线）
- password（string，必填，长度 8-16，需包含大小写和数字）
- captcha（string，选填，登录失败 3 次后必填）
业务规则：
- 连续失败 5 次，账号锁定 30 分钟
- 同一 IP 每分钟最多 10 次请求
- 密码错误不返回具体原因（安全要求）

注意最后的“业务规则”部分——这是大多数人遗漏的关键。接口文档描述的是“怎么调用”，业务规则描述的是“什么情况下怎么处理”。两者都要给到 AI。

3.2 历史缺陷数据

这是一个经常被忽视的宝贵输入。把过去在这个模块出现过的线上 Bug 或测试中发现的高频缺陷，以结构化方式提供给 Skills：

历史高频缺陷（登录模块）：
1. captcha 字段为空字符串时，系统未触发验证码校验
2. username 含空格时，系统报 500 而不是参数错误
3. 并发登录场景下，锁定计数出现竞争条件，未正确锁定

Skills 会将这些缺陷模式纳入推理逻辑，确保生成的用例优先覆盖历史高风险场景。

3.3 代码变更 diff（适用于回归场景）

如果是版本发布前的回归测试，把 Git diff 作为输入，让 Skills 识别变更范围，推荐需要回归的用例集合。这个能力在 CI/CD 流程里价值极高。

四、Skills 层：这才是真正需要设计的地方

4.1 一个 Skill 的基本结构

一个有效的测试用例生成 Skill，通常包含以下四个部分：

角色定义：告诉 AI 它是谁，建立判断的基准视角。

推理规则：明确它应该用什么逻辑来分析输入、推导场景。这是 Skill 的核心，也是注入团队经验的地方。

覆盖清单：列出必须覆盖的场景类别，作为检查点。

输出规范：定义用例的格式、字段、优先级标准，确保输出可以直接进入工具链。

4.2 一个完整的 Skill 示例

以接口测试为例，下面是一个可以直接使用的 Skill 配置：

## 角色定义
你是一名有 5 年经验的接口测试工程师，熟悉 RESTful API 测试方法论，
对边界值分析、等价类划分、场景组合有深入理解。
## 推理规则
当我提供接口定义时，按以下步骤分析：
1. 参数分析
   - 逐字段识别类型、约束、必填性
   - 对字符串类型：识别长度限制、格式约束、特殊字符敏感性
   - 对数值类型：识别范围约束、精度要求、边界值
   - 对枚举类型：识别所有合法值及非法值场景
2. 业务规则分析
   - 识别有状态逻辑（如锁定、限流、权限校验）
   - 识别多步骤依赖场景（如需要先登录才能调用）
   - 识别并发敏感场景
3. 安全场景分析
   - SQL 注入（字符串参数）
   - 越权访问（涉及用户隔离的接口）
   - 重放攻击（涉及支付、核销等高风险操作）
4. 历史缺陷场景
   - 将提供的历史缺陷模式转化为具体用例，标注来源
## 覆盖清单（每个接口必须覆盖）
- [ ] 正常路径（典型业务场景，至少 2 条）
- [ ] 必填参数缺失
- [ ] 参数类型错误
- [ ] 边界值（最大值、最小值、边界±1）
- [ ] 空值和空字符串
- [ ] 业务规则触发场景
- [ ] 安全场景（视接口类型选择）
## 输出规范
以 Markdown 表格输出，包含以下字段：
| 用例编号 | 场景描述 | 前置条件 | 请求参数 | 预期状态码 | 预期响应体关键字段 | 优先级 |
优先级规则：
- P0：核心业务路径 + 安全场景 + 历史高频缺陷
- P1：主要异常场景 + 边界值
- P2：低频异常 + 边界±1 场景

4.3 针对不同测试类型的 Skill 变体

一个 Skill 不能通吃所有场景。根据测试类型，你需要设计不同的变体：

功能测试 Skill：侧重业务路径覆盖，输入以 PRD 和用户故事为主，输出包含操作步骤和预期页面状态。

接口测试 Skill：如上示例，侧重参数组合和边界值，输入以接口文档为主，输出包含请求参数和响应断言。

回归测试 Skill：侧重变更影响范围识别，输入以 Git diff 和模块依赖图为主，输出包含推荐回归用例集合和跳过理由。

性能测试 Skill：侧重并发场景和压力边界，输入以接口 SLA 要求为主，输出包含测试场景和监控指标。

五、一个完整的实战案例

纸上谈兵不够，我们用一个真实场景走一遍完整流程。

场景背景

某电商平台，商品加入购物车接口，近期发生了两次线上问题：一次是同一商品加了两次但库存只扣了一次（并发问题），一次是限购商品未校验用户已购数量就允许加车（业务规则漏洞）。

第一步：准备输入

接口：POST /api/v1/cart/add
请求参数：
- user_id（string，必填）
- sku_id（string，必填）
- quantity（integer，必填，范围 1-99）
业务规则：
- 同一用户同一 SKU 加车后，购物车数量累加（不新增行）
- 部分 SKU 有限购规则（最大购买数量存于 sku_limit 字段）
- 库存不足时返回具体的可购数量提示
- 已下架商品不可加车
历史缺陷：
1. 并发加车场景下，库存扣减出现竞争条件
2. 限购校验未考虑购物车已有数量，只校验本次 quantity

第二步：调用 Skill，生成用例

Skill 处理后，输出以下用例（节选关键部分）：

用例编号	场景描述	请求参数	预期状态码	预期响应关键字段	优先级
TC-001	正常加车：有库存商品，数量合法	sku_id=“A001”, quantity=1	200	cart_count +1	P0
TC-002	并发：同一用户同一 SKU 并发 10 次请求	并发请求，quantity=1	200	库存扣减总量 = 10，无超扣	P0
TC-003	限购校验：购物车已有 3 件，再加 3 件超出限购 5 件	cart 已有 3，quantity=3	400	error_code=“LIMIT_EXCEEDED”	P0
TC-004	已下架商品加车	sku_id=“已下架SKU”	400	error_code=“SKU_OFFLINE”	P0
TC-005	库存不足：请求数量超过库存	quantity=100，库存=50	200/400	available_stock=50	P1
TC-006	quantity 为 0	quantity=0	400	参数错误	P1
TC-007	quantity 为 100（超出上限）	quantity=100	400	参数错误	P1
TC-008	sku_id 包含 SQL 注入字符	sku_id=“’ OR 1=1–”	400	安全过滤生效	P0