搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
DeepMind让大模型学会归纳和演绎，GPT-4准确率提升13.7%
具体来说，下表 1 显示了在算术的 base-16、base-11 和 base-9 数据集上的结果。在所有 base 系统中，0-shot CoT 在两个 LLM 中的性能都最差。
54740编辑于 2023-10-24
来自专栏机器之心
NeurIPS 2024 | 可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%
如图 1 左所示，Q1 中的「We know 6+6=12 and 3+7=10 in base 10」是关于 base-9 计算的噪声信息，该信息容易误导模型输出错误的结果。图 1. 在本工作中，我们将噪声思维链定义为：包含不相关或者不准确推理步骤的思维链，如图 1 右侧 R1 中的「13 + 8 = 21」步骤，对于 base-9 计算来说，是错误的推理步骤。
46610编辑于 2025-02-14