DeepSeek-R1这些大模型远远甩在后面 - Math(AIME'24):Reasoning Beta达93分,mini版96分,远超o1的83分 - Science(GPQA):两个版本都达到85/84分,超过o3mini
而 o3mini 不仅展现出了稳定的几何结构,小球在四维空间内弹跳的运动轨迹也较为灵活,有撞到立方体侧面的打击感。 再来看 DeepSeek R1 这边,它对四维超立方体的形状理解似乎还不够深入透彻。
o3还是强的,o4mini反而比o3mini还差了点。 工具使用这块。 左边那个Scale MultiChallenge,多轮指令跟随,是一套用来测记性+执行力的题。