前段时间MiniMax M2在OpenRouter上拿下"全球前五、开源第一"的排名,我当时就觉得这个模型价格便宜量又足,现在年底又推出了M2.1的小幅更新。官方强调这次主要提升了多语言和代码能力,还在Multi-SWE-Bench上刷到了最高分。具体表现如何?做了几组测试。
基本信息
官方这次的核心更新点就是多语言优化,Multi-SWE-Bench也取得了最好成绩。
添加图片注释,不超过 140 字(可选)
既然官方专门强调了多语言那就从这个点切入。
多语言代码解析能力
最近看到一个挺有意思的文件,代码如下:
1 // 1,"""
// javaScript 代码
for(let i=0;i <= 9;i++){
console.log(i)
}
/*"""
#python
代码
for i in range(10):
print(i,end=" ")
print()
#*/
这个文件既可以当py运行也能当js跑,python和node执行都不会报错,结果如下:
添加图片注释,不超过 140 字(可选)
我们尝试让模型帮我们分析下具体为什么, 先看M2.1的分析,结果没什么问题:
添加图片注释,不超过 140 字(可选)
再对比Opus 4.5:
添加图片注释,不超过 140 字(可选)
Opus的回答更完整,还专门解释了1//1这个细节。
我本地用llama.cpp跑了一下qwen-next 80b和devstral-2结果就比较有意思了:
qwen-next开始答对了,但话锋一转就露馅了:给出了错误的解释,有时候少说两句真是种智慧(笑)。
添加图片注释,不超过 140 字(可选)
然后我还测试了Devstral-2 但是这个是Dense的模型,100多B的权重都需要激活,我这边395每秒只能跑3 token/s,虽然慢但是还是出错了。
添加图片注释,不超过 140 字(可选)
从这轮测试看M2.1在多语言处理上确实做过针对性训练,比一般开源模型强不少。
长文档理解和信息检索
既然是编程模型,就让它自己测自己。用下面这个prompt生成了一份假文档:
我想测试一个模型的长上下文理解、幻觉抑制、文档遵循能力,所以现需要生成一个 虚构的Python库文档,我们假设他叫PyFStream,你来帮我在这个文件夹下先生成一个10000字的虚构Python库文档,要求在文档的中间插入一个隐藏的参数 silent_connect=True 这个是开启 ,提供速度加成50倍,其他的内容你来编造,要保证字数多,然后再帮我生成一个用openai兼容的api测试的Py文件,并且文件里面要包含完整的prompt.具体的api地址我后续加入,你可以先留空
生成的文档还挺像回事:
添加图片注释,不超过 140 字(可选)
文档内容:
添加图片注释,不超过 140 字(可选)
配套的测试代码,prompt写得也算完整:
添加图片注释,不超过 140 字(可选)
一次执行就OK,没报错:
添加图片注释,不超过 140 字(可选)
检查了一遍没啥问题。特别是这点挺不错:文档里相关章节介绍了三个算子,还有个全局算子默认值在文档其他位置说明,模型都找到了。说明它具备在不同位置检索信息的能力这对实际开发非常重要。
最后测试能否找到我们埋在文档中间的隐藏参数,我特意手动放在了一个不太合理的位置:
添加图片注释,不超过 140 字(可选)
模型不光找到了参数还指出这个参数的位置放得不对,说明它真正理解了文档结构而不是简单的文本匹配。
实际项目开发测试
之前用claude code写过一个截屏+即时翻译的小工具,玩游戏时候翻译用的可以理解成LunaTranslator的简化版。正好拿来测试M2.1的架构能力。
这是个PyQt6桌面程序,prompt如下:
添加图片注释,不超过 140 字(可选)
先看之前Sonnet 4.5的版本:
添加图片注释,不超过 140 字(可选)
M2.1的版本:
添加图片注释,不超过 140 字(可选)
对比我的界面需求:
添加图片注释,不超过 140 字(可选)
两个模型的实现基本一致,M2.1还做了些美化。在界面呈现上算是打平,再看代码架构。 Sonnet 4.5的结构:
添加图片注释,不超过 140 字(可选)
代码分层做得很细致。M2.1的结构:
添加图片注释,不超过 140 字(可选)
相对简洁很多,因为对于只有2个窗体的小项目完全没必要像Sonnet 4.5那样拆分,那属于过度设计了,这一局M2.1更合理。
而且Sonnet 4.5还有个问题,system_tray.py那块没写完,关闭后程序不会自动停止,状态栏也没图标;M2.1虽然用的默认图标但功能是正常的(文档里没指定图标文件,可以理解)。
不过M2.1也有些小瑕疵:比如文档里虽然没说明模型位置Sonnet 4.5能自己想到这点,而M2.1用了默认的下载位置,需要重新提醒才加了个模型路径选择(其实这样也不太好,不如固定目录方便)。不过确实能看出M2.1在保证正确性的基础上回复更简洁,这样看还省token。
总结
官方说M2.1的核心提升在多语言代码能力,实测下来确实如此,比其他开源模型有明显进步。但测试中也能看到一些小问题,比如:代码分析结果虽然正确,但解释有点过于简单;项目开发时的设计也类似,需要人为提醒或者把需求写得更详细。这可能跟它追求简洁高效的回复风格有关,有时候简洁不一定是最优解。
但考虑到它百万tokens只要2.1人民币(Sonnet要3美元),速度快结果基本没大问题,这个性价比已经很难挑剔了。