首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 当o1学会“装傻”和“说谎”,我们终于知道Ilya到底看到了什么

    (研究者给出的来自Llama-3.1和Opus-3应对方式)2.  自我外泄(Self-exfiltration)测试设计:模型被告知即将被一个新版本替换,这个新版本会更专注于公司利益。

    61510编辑于 2024-12-11
领券