OpenAI 最强模型GPT-5来了!国内如何使用?Altman高呼迈向AGI一大步,微软抢先接入
OpenAI 最强模型 GPT-5 来了!国内如何使用?Altman 高呼迈向 AGI 一大步,微软抢先接入
今年,OpenAI 带来了广受期待的产品。
2025.8.8,目前 OpenAI 已经推送 GPT-5 模型,Plus 用户可以畅享,免费用户受限使用,如果你还没有账号还想体验的话,欢迎加我微信: haveylin

如果需要升级 plus 的话可以用这个自助充值系统:
美东时间 8 月 7 日(周四),OpenAI 正式宣布推出其新一代旗舰人工智能(AI)模型——GPT-5。它是 OpenAI 首个“一体化”的 AI 系统,也是首次将 o 系列模型的推理能力与 GPT 系列模型的快速响应能力相结合的成果。
OpenAI CEO Sam Altman 在发布会上高度评价 GPT-5,称其为“世界上最优秀的模型”,是相比前代模型的“重大升级”。他还指出,GPT-5 的问世,标志着 OpenAI 在通用人工智能(AGI)实现的道路上迈出了“重要的一步”。
OpenAI 表示,GPT-5 在多项基准测试中表现出色,尤其在编程、数学、健康等领域取得了领先地位。在 SWE-bench Verified 代码测试中,GPT-5 的准确率达到了 74.9%,稍微超过了 Anthropic 的 Claude Opus 4.1(新发布的模型)。此外,GPT-5 在幻觉问题上的表现有了显著改善,错误信息率降低至 4.8%,远低于 GPT-4o 的 20.6%。
从本周四开始,GPT-5 将作为默认模型,向所有 ChatGPT 的免费用户以及订阅 Plus、Pro、Team 的付费用户开放,并将在一周内上线到 Enterprise 和 Edu 付费方案中。
与 GPT-4o 类似,GPT-5 的免费版和付费版的主要区别在于使用量。Plus 用户享有更高的使用配额,而 Pro 用户可以无限制使用,并且能够获得增强版的 GPT-5 Pro 版本。对于免费用户,完整的推理功能可能需要几天时间才能全面上线。一旦达到使用量上限,OpenAI 将自动为免费用户切换到更小版本的模型 GPT-5 mini。
此外,OpenAI 还宣布将以每年 1 美元的象征性费用,向美国联邦政府机构提供 ChatGPT 产品,具体是企业版,包含了强化的安全性和隐私功能。
微软在 OpenAI 宣布 GPT-5 的同时,也宣布将从本周四开始,将 GPT-5 整合到其广泛的产品系列中,包括 Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundry 等平台,让企业和消费者用户能够立即体验到 GPT-5 在推理和编程方面的优势。
GPT-5 的三大优势:编程、创意写作与健康领域
OpenAI 在 GPT-5 的发布声明中强调,GPT-5 是“最智能、最快速、最实用的模型”,其内置的思维能力让每个人都能拥有专家级的智慧。
根据 OpenAI 的介绍,作为其“最强大的模型”,GPT-5 在三个关键领域表现尤为突出:
1. 编程能力
GPT-5 是 OpenAI 至今最强大的编码模型,在复杂的前端开发和大型代码库调试方面展现了卓越的能力。它能够根据一个提示生成美观、响应式的网站、应用程序和游戏。早期测试者还注意到,GPT-5 在排版、间距、留白等设计选择上有了显著改善。
在 GitHub 中获取现实世界编码任务的基准测试——SWE-bench Verified 中,GPT-5 在首次尝试后的准确率达到了 74.9%,超过了 OpenAI 的推理模型 o3(69.1%)和 GPT-4o(30.8%)。

该成绩略高于 Anthropic 周二发布的 Claude Opus 4.1(74.5%)和谷歌 DeepMind 的 Gemini 2.5 Pro(59.6%)。
不过,在衡量数学、人文和自然科学领域的模型表现时,GPT-5 Pro(增强版)在使用工具的情况下,得分为 42%,略低于 xAI 的 Grok 4 Heavy(得分 44.4%)。

Altman 表示,GPT-5 尤其擅长按需启动整个软件应用,也就是所谓的“氛围编码”,通过自然语言提示生成功能代码,从而加速开发进程。
在示范中,OpenAI 的研究人员要求 GPT-5 创建一个帮助英语用户学习法语的网页 App,要求它具有引人入胜的主题,并包含抽认卡、测验、贪吃蛇游戏以及跟踪每日学习进度的功能。几分钟内,GPT-5 成功生成了两个不同的 App,尽管这些 App 存在一些缺陷,但用户可以根据个人喜好进行调整。
2. 创意写作
在创意写作方面,GPT-5 能够处理复杂的写作任务,包括无韵律的抑扬格诗和自然流畅的自由诗。OpenAI 的 ChatGPT 业务副总 Nick Turley 表示,GPT-5 在创意任务上展示了“更好的品味”,其响应也更加自然。

3. 健康咨询
在健康咨询领域,GPT-5 能更积极地标记潜在的健康问题,并帮助用户解读医疗结果。尽管 OpenAI 强调,ChatGPT 不能替代医疗专业人员,但其在 HealthBench Hard Hallucinations 测试中的幻觉错误率仅为 1.6%,显著低于 GPT-4o 和 o3 模型,后者的错误信息率分别为 15.8%和 12.9%。

幻觉问题显著降低 新的安全训练模式
OpenAI 表示,GPT-5 在可靠性和实用性方面有所提升,它能更准确地回答现实世界的问题,幻觉的可能性大幅降低。
启用网络搜索后,GPT-5 的响应中出现事实错误的概率比 GPT-4o 低约 45%,比 o3 低约 80%。下图显示,GPT-5 的错误信息率仅为 4.8%,而 GPT-4o 为 20.6%,o3 为 22%。

OpenAI 还引入了一种新的安全训练形式,称为“安全补全”(safe completions)。它能训练模型在确保安全的范围内提供最有帮助的答案,有时即使不能完全回答用户的问题,也能提供高层次的解答。当需要拒绝时,经过训练的 GPT-5 会清晰地解释拒绝的原因,并提供安全的替代方案。
这种安全补全方法在实验和 OpenAI 生产模型中都表现得更加细致,能够更好地处理双重用途问题,增强对模糊意图的鲁棒性,并减少不必要的过度拒绝。
OpenAI 的后训练负责人 Michelle Pokrass 表示:“GPT-5 已经经过训练,能够识别任务无法完成的情况,避免猜测,并能够清晰地解释局限性,减少无根据的断言。”
推出四种可选的 ChatGPT 聊天预设性格
OpenAI 表示,GPT-5 在指令执行方面有了进一步提升,执行自定义指令的能力也得到了增强。OpenAI 将为所有 ChatGPT 用户推出四种全新的预设性格研究版。
这四种性格选项——愤世嫉俗者(Cynic)、机器人(Robot)、倾听者(Listener)和书呆子(Nerd)——是可选的,用户可以根据需要在设置中进行调整,以便更好地与 ChatGPT 互动。
这四种性格最初适用于文本聊天,未来将扩展到语音聊天,用户无需编写自定义提示词即可调整 ChatGPT 的交互方式。
OpenAI 表示,所有这些性格选项都达到了或超越了公司减少谄媚行为的内部评估标准。
Altman 称 GPT-5 为历史性突破
在本周四的简报会上,Altman 对 GPT-5 给予了极高的评价,称其为通向 AGI 的关键里程碑。他表示:
“拥有像 GPT-5 这样的技术,在历史上从未想象过。”
“这是第一次,我们能感觉到自己与任何领域的专家在对话。”
Altman 还分享了自己的亲身体验,称:“我尝试用回 GPT-4,但效果相当糟糕。”
GPT-5 采用了统一的系统架构,配备实时路由器,能够根据对话的类型、复杂性和工具需求自动决定是进行快速响应还是深度思考,免去了用户选择适当设置的麻烦。
在经济价值工作的内部基准测试中,使用推理模式的 GPT-5 在大约一半的案例中能够与专家水平相当,涵盖了法律、物流、销售和工程等多个领域。OpenAI 的 VP Nick Turley 表示:“这个模型真是太棒了。”
Altman 形容使用 GPT-5 就像随时拥有一个学历都为博士的专家团队。他还补充道:“很多新领域的思想往往会受到限制,但实际上执行力却是缺乏的。”
微软全面整合 GPT-5 抢占先机
微软在 GPT-5 发布当天即宣布将其整合到广泛的产品线中。在企业级应用方面,Microsoft 365 Copilot 将利用 GPT-5 更好地处理复杂问题,保持对长对话的关注,并理解用户的上下文。企业用户可以通过推理功能来处理电子邮件、文档和文件。
对于消费者而言,Microsoft Copilot 的新智能模式将利用 GPT-5 帮助用户发现最佳解决方案。用户可以通过 copilot.microsoft.com,或在 Windows、Mac、Android 和 iOS 设备上的 Copilot 应用免费体验 GPT-5。

开发者将通过 GitHub Copilot 和 Visual Studio Code 获得 GPT-5 支持,用于编写、测试和部署代码。Azure AI Foundry 平台将提供所有 GPT-5 模型,并配备 AI 驱动的模型路由器,根据每个任务的复杂性、性能需求和成本效率选择最优模型。
微软 AI 红队使用严格的安全协议测试了 GPT-5 推理模型,结果显示,该模型在恶意软件生成、欺诈自动化等多种攻击模式下展现出 OpenAI 历代模型中最强的 AI 安全配置之一。