一文读懂OpenAI系列发布会：从工具到AGI，OpenAI的12天 - AI新技术

在2025年年末的连续12天发布会上，OpenAI通过一系列产品和模型的更新，展现了其在AI领域的持续创新与战略布局。从o1到GPT-o3，从Sora到Canvas，每一项发布都蕴含着对AGI的探索与实践。

在2025年年末的连续12天发布会上，OpenAI通过一系列产品和模型的更新，展现了其在AI领域的持续创新与战略布局。从o1到GPT-o3，从Sora到Canvas，每一项发布都蕴含着对AGI的探索与实践。这些更新不仅体现了OpenAI在模型性能上的显著提升，也反映了其在技术、商业和用户体验方面的全面布局。

重要产品更新：o1完全版（Day1）

o1完全版的发布是OpenAI在2025年末连续Devday活动中的第一个重磅产品。从能力上看，o1在多个关键测试中表现突出，特别是在国际数学奥林匹克预选赛题目（AIME 2024）、编程能力测试（CodeForces）方面，相比o1-preview版本提升了50%。在处理复杂问题时的重大错误率降低了34%，并且能够根据题目的难易程度调节处理时间，使用户等待时间下降超过50%。

o1还支持多模态识别，这意味着它能够处理文本、图像等多种输入形式。这种能力让o1在实际应用中展现出更高的实用性。例如，医生可以用它分析医学影像，工程师可以利用它查看图纸并获取协助，设计师则能通过它获得创意建议。然而，这一强大的功能也伴随着高昂的价格，只有200美元的ChatGPT Pro版订阅用户才能享受无限使用，而普通20美元订阅用户只能获得每日20次的使用权限。

Sora（Day3）：视频生成的里程碑

Sora的发布标志着OpenAI在视频生成领域迈出了重要一步。经过长达10个月的等待，Sora终于在2025年年末的第三天正式上线。虽然这不是一个模型版本的升级，而是产品打磨的一次重要尝试，但其实际效果仍然令人印象深刻。

Sora正式版能够生成最长20秒、最高1080p的视频。尽管生成效果与2月份初的演示相比变化不大，但OpenAI在产品设计上投入了大量精力。最引人注目的功能是故事板，这是一个类似专业视频编辑软件的时间轴界面，允许用户在时间轴上添加多个场景卡片。用户可以通过串联多个提示词，系统会自动处理场景之间的过渡效果，大大简化了视频生成的流程。

此外，OpenAI还推出了Remix、Blend和Loop三个专业工具。Remix允许用户替换视频中的元素，Blend可以混合两个视频，而Loop则能自动补全并生成无限循环视频。这些功能的推出，使得Sora在视频生成领域具备了更强的实用性和创意性。

然而，Sora的模型性能并没有显著提升。在发布后的评测中，Sora在运动、交互和物理处理方面频频出错，甚至会出现凭空出现的人和鬼影。这表明尽管产品设计上有所创新，但模型本身的局限性仍然存在。因此，Sora的发布更像是对视频生成技术的一次全面展示，而非真正意义上的突破。

Canvas（Day4）：AI版Google Docs

Canvas的发布是OpenAI在AI工作台领域的一次重要尝试。一句话形容，Canvas就是AI版Google Docs。它集成了智能写作、代码协作和AI智能体等多种功能，显示了OpenAI超越单纯Chatbot产品的野心。

作为写作助手，Canvas可以提供编辑意见，帮助用户优化文本内容。在编程方面，Canvas通过内置的WebAssembly Python模拟器，创造了一个几乎无延迟的编程环境。它还具备理解代码意图的能力，这一功能对于开发者来说非常有用。与近期更新的Cursor和Devin类似，Canvas也支持定制化AI智能体，能够完成一系列任务，例如给朋友们发圣诞信。

Canvas的三个维度并不是孤立运作的。在实际使用中，它们往往会相互配合，这种无缝的集成使得Canvas成为一个多功能AI驱动的创作工作室原型。然而，从前端展示的角度来看，Canvas不如Claude的Artifacts，编程的便利性也不如Cursor。因此，Canvas的亮点在于其多功能的集成能力，而非单一功能的卓越表现。

o1-mini强化微调（Day2）：提升复杂领域任务的性能

o1-mini强化微调的发布虽然在实用性上有所局限，但也被认为是OpenAI在2025年末连续Devday活动中的一个重要亮点。这一更新改变了过去仅通过增加专业数据来微调模型的逻辑，而是对具有推理能力的模型进行强化学习方向的微调，引导模型在面对复杂问题时有更深刻的思考能力。

根据OpenAI的研究数据，经过强化微调的o1-mini模型在测试通过率上比传统的o1模型高出24%，相比未经过强化微调的o1-mini则提升了82%。这一显著的性能提升使得o1-mini在复杂领域任务中表现出色，例如医疗、法律或金融和保险等。然而，由于其适用范围较为狭窄，泛用性较差，因此这一更新在实际应用中的影响可能有限。

高级视频语音模式（Day6）：视频通话功能的正式上线

高级视频语音模式的发布是OpenAI在2025年末连续Devday活动中的另一个重要更新。这一功能的正式上线，使得用户能够通过视频通话与AI进行互动，可以看到实时的手机屏幕内容，或者根据相机里的实时画面与AI聊天或解答问题。

虽然这一功能的推出并不算特别有突破性，但它在用户体验上的提升是显而易见的。视频通话功能的实装，使得AI不再是单纯的文本交互工具，而是能够以更自然的方式与用户进行沟通。然而，这一功能的推出也暴露了OpenAI在某些领域的相对落后。例如，前两天微软推出的Vision和谷歌还在开发的Astra已经跟上了这一节奏，这意味着OpenAI的领先优势正在一点点被蚕食。

与苹果的合作（Day5、Day11）：深度整合的尝试

与苹果的深度合作是OpenAI在2025年末连续Devday活动中的一个亮点。这一合作主要体现在三个方面：与Siri的协同、写作工具的增强以及iPhone 16的相机控制功能。当Siri判断某个任务可能需要ChatGPT的协助时，它可以将任务移交给ChatGPT处理，这种协同方式极大地提升了用户体验。

写作工具的增强使得用户能够使用ChatGPT从头开始撰写文档，还能进行文档细化和总结。这一功能对于需要处理大量文本内容的用户来说非常有用。iPhone 16的相机控制功能则能够通过视觉智能让用户更深入地了解拍摄对象，这一功能的推出展示了OpenAI在图像识别和处理方面的强大能力。

然而，这一合作的推出似乎并没有完全体现出其潜力。ChatGPT和Apple Intelligence的整合更像是一个官宣，而具体的功能和应用案例仍然有待进一步开发和探索。此外，这一合作与苹果的整合似乎被分成了两天宣布，这让人感到有些遗憾，因为两者之间的联系和协同效应可能更加紧密。

能力补齐和小功能更新（Day 7，8，9，10）：细节优化的尝试

在接下来的几天里，OpenAI发布了一系列能力补齐和小功能更新。这些更新虽然在整体影响力上不如前几个产品，但它们在细节优化和用户体验提升方面起到了重要作用。

“Projects”项目功能允许用户创建特定项目，上传相关文件，设置自定义指令，并将所有与该项目相关的对话集中在一个地方。这一功能的基本设计与Claude的类似，但在实际应用中，它为用户提供了更多的灵活性和便利性。ChatGPT搜索的升级使得用户能够在对话中搜索，并支持多模态输出。这一功能的推出，使得用户能够更高效地获取所需信息。

此外，4o热点的推出使得美国用户能够通过4o进行电话通话，这一功能的推出显得特别贴心，仿佛在为用户过重阳节。o1图像输入和4o高级语音API的正式开放，也进一步提升了这些产品的功能性和实用性。尽管这些更新看起来有些零散，但它们在细节上的优化为用户提供了更好的使用体验。

最终王炸：GPT-o3（Day 12）：Scaling Law的胜利

在连续12天的发布会上，OpenAI最终在第十二天推出了GPT-o3，这一发布无疑成为了整个系列活动的王炸。GPT-o3作为o1的下一个版本，在多个关键基准测试中大幅超过了之前的o1模型。

在编码、数学以及ARC-AGI基准测试等多个测试中，GPT-o3的表现尤为突出。例如，在Codeforces评分上，GPT-o3达到了2727分，相当于全球人类程序员编码竞赛中排名第175位，超过了99%的人类程序员。在博士水平的科学问题（GPQA）测试中，GPT-o3的得分达到了87.7%，而博士生一般得分在70%左右。在前沿数学测试中，GPT-o3的得分达到了25.2%，而其他模型没有超过2%。

最值得注意的是ARC-AGI测试，这一测试展示了模型在新型任务适应能力上的表现。在ARC-AGI测试中，GPT-o3的得分达到了87.5%，而之前的ARC-AGI-1从2020年GPT-3的0%仅提升到2024年GPT-4o的5%。这意味着模型不仅在记忆能力上有所提升，更在解决问题的能力上取得了突破。

尽管GPT-o3在某些非常简单的任务中仍然存在失败的情况，与人类智能有根本性的差别，但它的表现无疑证明了OpenAI在强化推理范式转变上的成功。这一成功不仅让AI的发展没有放缓的迹象，也让Scaling Law依然有效，那些对AI停滞不前的担忧被OpenAI年末的圣诞礼物一扫而空。

AI的发展：没有放缓的迹象

2025年末的连续12天发布会上，OpenAI通过一系列产品和模型的更新，展现了其在AI领域的持续创新与战略布局。从o1到GPT-o3，从Sora到Canvas，每一项发布都蕴含着对AGI的探索与实践。这些更新不仅体现了OpenAI在模型性能上的显著提升，也反映了其在技术、商业和用户体验方面的全面布局。

AI的发展没有任何放缓的迹象。Scaling Law依然有效，那些对AI停滞不前的担忧被OpenAI年末的圣诞礼物一扫而空。虽然GPT-o3进行一次低算力计算的成本高达20美元，高算力甚至可能高达3000美元，要使用在现阶段几乎是不可能的。但算力会降低，Scaling Law会延续。

未来展望：OpenAI的全速前进

正如参与开发了o1的OpenAI科学家Noam Brown在采访中所说，“2024年，OpenAI是在实验，而2025年就是全速前进的一年。”这意味着OpenAI在2025年已经进入了全面发展的阶段，其发布的每一个产品和模型都在为AGI的实现打下坚实的基础。

关键词

openai, ai模型, agi, scaling law, sora, canvas, o1, gpt-o3, apple intelligence, chatgpt, 人工智能