GPT-5.4 Computer Use API正式上线:AI操控电脑,从玩具变成工具了吗?
OpenAI今天正式开放了GPT-5.4的Computer Use API,我第一时间上手试了试,聊聊真实感受。
先说结论:比之前的Computer Use preview版本强了很多,但离「即插即用」还有距离。它已经从「看起来很酷的demo」进化到了「能解决部分实际问题」,但还不能完全替代人工操作。
什么是Computer Use API?
简单说,就是让AI能像人一样「看」屏幕、「操作」鼠标键盘。
传统的API调用是:你传一段文本,AI返回一段文本。Computer Use API是:你告诉AI一个目标(比如「帮我把这个Excel表格里的数据整理成柱状图」),AI会自己观察屏幕、点击按钮、输入数据、完成任务。
这个过程包括:
- 截图理解当前界面状态
- 规划操作步骤(先点这里,再输入这个,然后点那里)
- 执行具体操作(移动鼠标、点击、键盘输入)
- 验证任务是否完成
实测表现如何?
我测试了三个场景:
场景1:自动化填表
让一个复杂的报销系统自动填表。结果:成功。AI能理解表单字段的含义,自动从邮件中提取相关信息填入对应位置。整个过程用了3分钟,人工操作大概需要10分钟。
场景2:Photoshop批量处理图片
要求AI给100张图片统一添加水印、调整尺寸、导出为webp。结果:部分成功。前30张没问题,第31张因为一张图片尺寸异常,AI陷入循环,一直在尝试同一种失败的方法。最后需要人工介入终止。
场景3:游戏测试
这个最有趣。我让AI玩一个简单的网页游戏,目标是尽可能得高分。结果:超预期。AI花了20分钟学习游戏规则,然后找到了几个「漏洞」策略,分数比我这个玩了半年的人还高。
能力提升在哪里?
相比preview版本,GPT-5.4的Computer Use有几个明显改进:
1. 更稳定的GUI识别
能更准确地识别按钮、输入框、下拉菜单等UI元素,不再像以前那样经常「点错地方」。
2. 错误恢复能力
当操作失败时,会尝试其他方法,而不是卡死。虽然还不够智能(场景2还是陷入了循环),但比preview版本好太多。
3. 多步骤任务规划
能理解更复杂的目标,自动拆解成多个子任务。比如「整理桌面文件」会被拆解为「按类型分类→重命名→移动到对应文件夹」。
4. 成本大幅下降
API调用成本比preview版本降低了约60%。虽然还是比普通GPT-4 API贵,但已经进入「可接受」范围了。
适合什么场景?
基于我的测试,以下几类任务比较适合:
- 重复性高的规则任务:数据录入、报表生成、文件整理
- 跨系统数据搬运:从A系统复制数据到B系统(不需要API对接的情况)
- 回归测试:模拟用户操作路径,验证软件功能
- 数据提取:从没有API的老旧系统中抓取数据
不适合的场景:
- 需要复杂判断的业务决策
- 对错误容忍度极低的操作(比如转账)
- 需要创造性解决问题的任务
总结
GPT-5.4 Computer Use API是个重要的里程碑,它让AI从「对话」扩展到了「操作」。
但不要神化它。现在的Computer Use更像是一个「有视觉能力的RPA工具」,而不是科幻电影里的那种通用AI助手。它能处理的是结构化、可预测的任务,对于需要灵活应变的场景还是会翻车。
我的建议是:如果你是开发者或者有自动化需求的企业,值得花时间去了解和试用。但如果只是普通用户,等更成熟的产品形态出来再用也不迟。
毕竟,让AI帮我玩游戏这件事,虽然挺酷的,但我更希望它先帮我把报销单填了。