首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%

    具体来说,下表 1 显示了在算术的 base-16、base-11 和 base-9 数据集上的结果。在所有 base 系统中,0-shot CoT 在两个 LLM 中的性能都最差。

    50140编辑于 2023-10-24
  • 来自专栏机器之心

    NeurIPS 2024 | 可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%

    如图 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10」 是关于 base-9 计算的噪声信息,该信息容易误导模型输出错误的结果。 图 1. 在本工作中,我们将噪声思维链定义为:包含不相关或者不准确推理步骤的思维链,如图 1 右侧 R1 中的「13 + 8 = 21」步骤,对于 base-9 计算来说,是错误的推理步骤。

    34810编辑于 2025-02-14
领券