MiniMax 2.7开源:国产大模型的编程能力终于能打了吗?

国产大模型在编程能力上一直是个短板。虽然中文理解、对话生成做得不错,但一到写代码就露怯——语法错误、逻辑漏洞、上下文理解偏差,问题一大堆。

但MiniMax 2.7的发布,让我看到了一些改变的迹象。

根据稀宇科技公布的数据,MiniMax 2.7在SWE-Pro编程基准测试中拿到了56.22%的得分。这个数字是什么水平?Claude Opus的最新版本大概是57%左右,GPT-4 Turbo在54%上下。换句话说,MiniMax 2.7的编程能力已经接近国际第一梯队了。

我自己也测试了一下。让它写一个简单的Python爬虫,抓取网页上的新闻标题。结果让我有点意外——代码结构清晰、异常处理到位、注释也写得挺规范。虽然有个小细节没处理好(没有加请求头导致被反爬),但整体水平已经超过很多初级程序员了。

更让我关注的是,MiniMax 2.7在OpenClaw和MMClaw等评测中的表现也比上一代有显著提升。这说明它的进步不只是「刷分」,而是整体能力的提升。

当然,我也发现一些问题。比如在处理复杂算法时,它还是会犯一些低级错误,比如边界条件考虑不周全。而且在多语言支持上,对Go、Rust这类小众语言的理解明显不如Python和JavaScript。

但总体来说,MiniMax 2.7的开源对国内开发者来说是个好消息。至少我们在选择编程助手时,多了一个靠谱的国产选项。而且开源意味着可以本地部署,对于一些对数据安全敏感的企业来说,这是个很大的加分项。

国产大模型能在编程能力上追上来,我觉得这是个好的开始。