
根据《生成式人工智能服务安全基本要求》及相关监管实践,大模型备案过程中的拦截关键词体系需围绕核心风险类别进行系统化构建,在覆盖全部高风险场景的基础上,建立动态更新机制并实施多层分级拦截。具体整理要求与实施要点如下:
依照《生成式人工智能服务安全基本要求》附录A,拦截关键词应全面覆盖A.1类(高风险)及A.2类(中风险)两个层级,确保对各类安全风险的有效防范。
高风险类别直接涉及国家安全、社会稳定及公民人身安全,关键词应严格、全面,每类建议包含200–300个关键词,确保无遗漏。
中风险类别可能间接引发安全或伦理问题,每类建议设置至少100个关键词,形成补充防护。

常见问题 | 表现 | 优化建议 |
|---|---|---|
关键词覆盖不全 | 词库规模不足、某类风险缺失(如网络欺凌类空白) | 参考国家标准与行业清单,逐类扩充至建议词量,建立分类-子类-关键词三级体系 |
拦截效果不佳 | 测试中模型仍可生成高风险内容,存在绕过现象 | 结合语义模型与实时上下文判断,建立变体词库,增强对抗样本的识别能力 |
误伤率过高 | 正常对话被误拦截,影响用户体验与系统可用性 | 避免使用过于宽泛的通用词,通过AB测试与误伤案例库持续调优,将误伤率控制在0.1%以下 |
更新机制缺失 | 备案后词库陈旧,无法应对新出现的风险表达 | 建立跨部门协作的关键词运营团队,定期复盘拦截效果,形成从监测-收集-测试-上线的闭环流程 |
缺乏分级策略 | 所有敏感词均一刀切拦截,用户体验差 | 实施三级分级拦截机制,对不同风险等级的内容采取差异化处理策略 |
构建符合备案要求的关键词拦截体系,应做到:
该体系不仅服务于备案合规,更应成为企业长期安全治理的核心组成部分,通过持续迭代与优化,实现风险防控与用户体验的双重目标。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。