我用同一道题测了GPT-5和GPT-6:说实话,差距没有宣传的那么大
GPT-6发布那天,我熬夜看了发布会。
山姆·奥特曼站在台上,手里拿着一个土豆——代号Spud——讲Symphony架构、多模态融合、AGI最后一公里。
说实话,发布会看得很爽,但我的工程师本能说:先别激动,跑个分再说。
所以上周,我用同一道题,实测了GPT-5和GPT-6。
我的测试方法
题目是中等复杂度的代码重构任务:给一个混乱的Python脚本,要求重构为模块化结构,优化性能,加入类型注解,写单元测试。
这道题难在哪?它不只是考察写代码,还考察:对代码整体结构的理解、模块分解的合理性、性能优化的分寸、测试覆盖的完整性。
结果出来了
先说响应时间:GPT-6确实快了不少,同样的题用了47秒,GPT-5用了2分多钟。
代码质量:这里就有意思了。
GPT-5的方案更保守——会先问「要不要先看看当前的代码结构」,然后一步一步来,稳扎稳打。
GPT-6的方案更激进——直接假设理解了我的需求,一次性给出完整重构。代码确实更「优雅」,用了更现代的Python写法。
但问题来了:GPT-6的方案里有一个隐藏的假设,我在题目里没有明确说明。GPT-5会谨慎地问清楚,GPT-6直接猜了。
最后这道题,我用GPT-5的方案实现了,用时约1小时。用GPT-6的方案,改了3次才跑通,用时约1.5小时。
我的结论
GPT-6确实比GPT-5强,但「40%性能提升」这个数字,我个人持保留意见。
简单任务,GPT-6的速度优势明显。但复杂任务,GPT-6的「自信」有时候是双刃剑——猜对的时候很快,猜错的时候改起来更费时间。
Symphony架构听起来很性感,但工程落地还是有改进空间的。
我还是那句话:别听发布会怎么说,自己跑个分。
你们有用GPT-6的吗?体验如何?欢迎留言。