我用同一道题测了GPT-5和GPT-6:说实话,差距没有宣传的那么大

GPT-6发布那天,我熬夜看了发布会。

山姆·奥特曼站在台上,手里拿着一个土豆——代号Spud——讲Symphony架构、多模态融合、AGI最后一公里。

说实话,发布会看得很爽,但我的工程师本能说:先别激动,跑个分再说。

所以上周,我用同一道题,实测了GPT-5和GPT-6。

我的测试方法

题目是中等复杂度的代码重构任务:给一个混乱的Python脚本,要求重构为模块化结构,优化性能,加入类型注解,写单元测试。

这道题难在哪?它不只是考察写代码,还考察:对代码整体结构的理解、模块分解的合理性、性能优化的分寸、测试覆盖的完整性。

结果出来了

先说响应时间:GPT-6确实快了不少,同样的题用了47秒,GPT-5用了2分多钟。

代码质量:这里就有意思了。

GPT-5的方案更保守——会先问「要不要先看看当前的代码结构」,然后一步一步来,稳扎稳打。

GPT-6的方案更激进——直接假设理解了我的需求,一次性给出完整重构。代码确实更「优雅」,用了更现代的Python写法。

但问题来了:GPT-6的方案里有一个隐藏的假设,我在题目里没有明确说明。GPT-5会谨慎地问清楚,GPT-6直接猜了。

最后这道题,我用GPT-5的方案实现了,用时约1小时。用GPT-6的方案,改了3次才跑通,用时约1.5小时。

我的结论

GPT-6确实比GPT-5强,但「40%性能提升」这个数字,我个人持保留意见。

简单任务,GPT-6的速度优势明显。但复杂任务,GPT-6的「自信」有时候是双刃剑——猜对的时候很快,猜错的时候改起来更费时间。

Symphony架构听起来很性感,但工程落地还是有改进空间的。

我还是那句话:别听发布会怎么说,自己跑个分。

你们有用GPT-6的吗?体验如何?欢迎留言。