在2025年年末的连续12天发布会上,OpenAI通过一系列产品和模型的更新,展现了其在AI领域的持续创新与战略布局。从o1到GPT-o3,从Sora到Canvas,每一项发布都蕴含着对AGI的探索与实践。
在2025年年末的连续12天发布会上,OpenAI通过一系列产品和模型的更新,展现了其在AI领域的持续创新与战略布局。从o1到GPT-o3,从Sora到Canvas,每一项发布都蕴含着对AGI的探索与实践。这些更新不仅体现了OpenAI在模型性能上的显著提升,也反映了其在技术、商业和用户体验方面的全面布局。
重要产品更新:o1完全版(Day1)
o1完全版的发布是OpenAI在2025年末连续Devday活动中的第一个重磅产品。从能力上看,o1在多个关键测试中表现突出,特别是在国际数学奥林匹克预选赛题目(AIME 2024)、编程能力测试(CodeForces)方面,相比o1-preview版本提升了50%。在处理复杂问题时的重大错误率降低了34%,并且能够根据题目的难易程度调节处理时间,使用户等待时间下降超过50%。
o1还支持多模态识别,这意味着它能够处理文本、图像等多种输入形式。这种能力让o1在实际应用中展现出更高的实用性。例如,医生可以用它分析医学影像,工程师可以利用它查看图纸并获取协助,设计师则能通过它获得创意建议。然而,这一强大的功能也伴随着高昂的价格,只有200美元的ChatGPT Pro版订阅用户才能享受无限使用,而普通20美元订阅用户只能获得每日20次的使用权限。
Sora(Day3):视频生成的里程碑
Sora的发布标志着OpenAI在视频生成领域迈出了重要一步。经过长达10个月的等待,Sora终于在2025年年末的第三天正式上线。虽然这不是一个模型版本的升级,而是产品打磨的一次重要尝试,但其实际效果仍然令人印象深刻。
Sora正式版能够生成最长20秒、最高1080p的视频。尽管生成效果与2月份初的演示相比变化不大,但OpenAI在产品设计上投入了大量精力。最引人注目的功能是故事板,这是一个类似专业视频编辑软件的时间轴界面,允许用户在时间轴上添加多个场景卡片。用户可以通过串联多个提示词,系统会自动处理场景之间的过渡效果,大大简化了视频生成的流程。
此外,OpenAI还推出了Remix、Blend和Loop三个专业工具。Remix允许用户替换视频中的元素,Blend可以混合两个视频,而Loop则能自动补全并生成无限循环视频。这些功能的推出,使得Sora在视频生成领域具备了更强的实用性和创意性。
然而,Sora的模型性能并没有显著提升。在发布后的评测中,Sora在运动、交互和物理处理方面频频出错,甚至会出现凭空出现的人和鬼影。这表明尽管产品设计上有所创新,但模型本身的局限性仍然存在。因此,Sora的发布更像是对视频生成技术的一次全面展示,而非真正意义上的突破。
Canvas(Day4):AI版Google Docs
Canvas的发布是OpenAI在AI工作台领域的一次重要尝试。一句话形容,Canvas就是AI版Google Docs。它集成了智能写作、代码协作和AI智能体等多种功能,显示了OpenAI超越单纯Chatbot产品的野心。
作为写作助手,Canvas可以提供编辑意见,帮助用户优化文本内容。在编程方面,Canvas通过内置的WebAssembly Python模拟器,创造了一个几乎无延迟的编程环境。它还具备理解代码意图的能力,这一功能对于开发者来说非常有用。与近期更新的Cursor和Devin类似,Canvas也支持定制化AI智能体,能够完成一系列任务,例如给朋友们发圣诞信。
Canvas的三个维度并不是孤立运作的。在实际使用中,它们往往会相互配合,这种无缝的集成使得Canvas成为一个多功能AI驱动的创作工作室原型。然而,从前端展示的角度来看,Canvas不如Claude的Artifacts,编程的便利性也不如Cursor。因此,Canvas的亮点在于其多功能的集成能力,而非单一功能的卓越表现。
o1-mini强化微调(Day2):提升复杂领域任务的性能
o1-mini强化微调的发布虽然在实用性上有所局限,但也被认为是OpenAI在2025年末连续Devday活动中的一个重要亮点。这一更新改变了过去仅通过增加专业数据来微调模型的逻辑,而是对具有推理能力的模型进行强化学习方向的微调,引导模型在面对复杂问题时有更深刻的思考能力。
根据OpenAI的研究数据,经过强化微调的o1-mini模型在测试通过率上比传统的o1模型高出24%,相比未经过强化微调的o1-mini则提升了82%。这一显著的性能提升使得o1-mini在复杂领域任务中表现出色,例如医疗、法律或金融和保险等。然而,由于其适用范围较为狭窄,泛用性较差,因此这一更新在实际应用中的影响可能有限。
高级视频语音模式(Day6):视频通话功能的正式上线
高级视频语音模式的发布是OpenAI在2025年末连续Devday活动中的另一个重要更新。这一功能的正式上线,使得用户能够通过视频通话与AI进行互动,可以看到实时的手机屏幕内容,或者根据相机里的实时画面与AI聊天或解答问题。
虽然这一功能的推出并不算特别有突破性,但它在用户体验上的提升是显而易见的。视频通话功能的实装,使得AI不再是单纯的文本交互工具,而是能够以更自然的方式与用户进行沟通。然而,这一功能的推出也暴露了OpenAI在某些领域的相对落后。例如,前两天微软推出的Vision和谷歌还在开发的Astra已经跟上了这一节奏,这意味着OpenAI的领先优势正在一点点被蚕食。
与苹果的合作(Day5、Day11):深度整合的尝试
与苹果的深度合作是OpenAI在2025年末连续Devday活动中的一个亮点。这一合作主要体现在三个方面:与Siri的协同、写作工具的增强以及iPhone 16的相机控制功能。当Siri判断某个任务可能需要ChatGPT的协助时,它可以将任务移交给ChatGPT处理,这种协同方式极大地提升了用户体验。
写作工具的增强使得用户能够使用ChatGPT从头开始撰写文档,还能进行文档细化和总结。这一功能对于需要处理大量文本内容的用户来说非常有用。iPhone 16的相机控制功能则能够通过视觉智能让用户更深入地了解拍摄对象,这一功能的推出展示了OpenAI在图像识别和处理方面的强大能力。
然而,这一合作的推出似乎并没有完全体现出其潜力。ChatGPT和Apple Intelligence的整合更像是一个官宣,而具体的功能和应用案例仍然有待进一步开发和探索。此外,这一合作与苹果的整合似乎被分成了两天宣布,这让人感到有些遗憾,因为两者之间的联系和协同效应可能更加紧密。
能力补齐和小功能更新(Day 7,8,9,10):细节优化的尝试
在接下来的几天里,OpenAI发布了一系列能力补齐和小功能更新。这些更新虽然在整体影响力上不如前几个产品,但它们在细节优化和用户体验提升方面起到了重要作用。
“Projects”项目功能允许用户创建特定项目,上传相关文件,设置自定义指令,并将所有与该项目相关的对话集中在一个地方。这一功能的基本设计与Claude的类似,但在实际应用中,它为用户提供了更多的灵活性和便利性。ChatGPT搜索的升级使得用户能够在对话中搜索,并支持多模态输出。这一功能的推出,使得用户能够更高效地获取所需信息。
此外,4o热点的推出使得美国用户能够通过4o进行电话通话,这一功能的推出显得特别贴心,仿佛在为用户过重阳节。o1图像输入和4o高级语音API的正式开放,也进一步提升了这些产品的功能性和实用性。尽管这些更新看起来有些零散,但它们在细节上的优化为用户提供了更好的使用体验。
最终王炸:GPT-o3(Day 12):Scaling Law的胜利
在连续12天的发布会上,OpenAI最终在第十二天推出了GPT-o3,这一发布无疑成为了整个系列活动的王炸。GPT-o3作为o1的下一个版本,在多个关键基准测试中大幅超过了之前的o1模型。
在编码、数学以及ARC-AGI基准测试等多个测试中,GPT-o3的表现尤为突出。例如,在Codeforces评分上,GPT-o3达到了2727分,相当于全球人类程序员编码竞赛中排名第175位,超过了99%的人类程序员。在博士水平的科学问题(GPQA)测试中,GPT-o3的得分达到了87.7%,而博士生一般得分在70%左右。在前沿数学测试中,GPT-o3的得分达到了25.2%,而其他模型没有超过2%。
最值得注意的是ARC-AGI测试,这一测试展示了模型在新型任务适应能力上的表现。在ARC-AGI测试中,GPT-o3的得分达到了87.5%,而之前的ARC-AGI-1从2020年GPT-3的0%仅提升到2024年GPT-4o的5%。这意味着模型不仅在记忆能力上有所提升,更在解决问题的能力上取得了突破。
尽管GPT-o3在某些非常简单的任务中仍然存在失败的情况,与人类智能有根本性的差别,但它的表现无疑证明了OpenAI在强化推理范式转变上的成功。这一成功不仅让AI的发展没有放缓的迹象,也让Scaling Law依然有效,那些对AI停滞不前的担忧被OpenAI年末的圣诞礼物一扫而空。
AI的发展:没有放缓的迹象
2025年末的连续12天发布会上,OpenAI通过一系列产品和模型的更新,展现了其在AI领域的持续创新与战略布局。从o1到GPT-o3,从Sora到Canvas,每一项发布都蕴含着对AGI的探索与实践。这些更新不仅体现了OpenAI在模型性能上的显著提升,也反映了其在技术、商业和用户体验方面的全面布局。
AI的发展没有任何放缓的迹象。Scaling Law依然有效,那些对AI停滞不前的担忧被OpenAI年末的圣诞礼物一扫而空。虽然GPT-o3进行一次低算力计算的成本高达20美元,高算力甚至可能高达3000美元,要使用在现阶段几乎是不可能的。但算力会降低,Scaling Law会延续。
未来展望:OpenAI的全速前进
2025年末的连续12天发布会上,OpenAI通过一系列产品和模型的更新,展现了其在AI领域的持续创新与战略布局。从o1到GPT-o3,从Sora到Canvas,每一项发布都蕴含着对AGI的探索与实践。这些更新不仅体现了OpenAI在模型性能上的显著提升,也反映了其在技术、商业和用户体验方面的全面布局。
正如参与开发了o1的OpenAI科学家Noam Brown在采访中所说,“2024年,OpenAI是在实验,而2025年就是全速前进的一年。”这意味着OpenAI在2025年已经进入了全面发展的阶段,其发布的每一个产品和模型都在为AGI的实现打下坚实的基础。
2025年末的连续12天发布会上,OpenAI通过一系列产品和模型的更新,展现了其在AI领域的持续创新与战略布局。从o1到GPT-o3,从Sora到Canvas,每一项发布都蕴含着对AGI的探索与实践。这些更新不仅体现了OpenAI在模型性能上的显著提升,也反映了其在技术、商业和用户体验方面的全面布局。
关键词
openai, ai模型, agi, scaling law, sora, canvas, o1, gpt-o3, apple intelligence, chatgpt, 人工智能