关注我,记得标星⭐️不迷路哦~
✨ 1: gpt-oss
开放权重推理与智能体模型

OpenAI的gpt-oss
项目发布了gpt-oss-120b
和gpt-oss-20b
两款开放权重模型,它们主要面向强大的推理、代理任务以及多用途开发者应用场景。这些模型采用Apache 2.0许可证,支持根据需求配置推理工作量,并提供完整的思维链以增强调试和输出可信度。项目核心在于其可微调性及内置的代理能力,包括函数调用、网页浏览和Python代码执行,同时利用原生MXFP4量化技术实现高效硬件部署,使得gpt-oss-120b
可在单H100 GPU上运行,gpt-oss-20b
仅需16GB内存。gpt-oss
模型通过特定的Harmony响应格式进行交互,并提供广泛的推理框架(如Transformers、vLLM、Ollama、LM Studio)兼容性及PyTorch、Triton、Metal的参考实现,还包含用于终端互动和API服务的客户端示例,支持通过内置的浏览器和Python工具进行复杂操作。
OpenAI宣布推出 gpt-oss-120b 和 gpt-oss-20b——两款最先进的开放权重语言模型,它们以低成本提供强大的真实世界性能。这些模型不仅在推理任务上表现出色,还展示了强大的工具使用能力,并针对消费级硬件上的高效部署进行了优化。它们在灵活的 Apache 2.0 许可证下可用,标志着开放模型领域迈出了重要一步。
卓越的性能与能力:重新定义开放模型的边界
gpt-oss 模型系列不仅是开放权重模型领域的重要里程碑,更在多项关键能力上展现了卓越表现:
- 领先的推理能力
:gpt-oss-120b 在核心推理基准测试中,性能接近 OpenAI o4-mini。gpt-oss-20b 在常见基准测试中提供与 OpenAI o3-mini 相似的结果。这意味着即使是较小的 gpt-oss-20b 模型,也能在边缘设备上或进行本地推理时提供强大的能力,仅需十六GB内存。 - 强大的工具使用与指令遵循
:两者在工具使用、少样本函数调用和 CoT (Chain-of-Thought) 推理方面表现强劲,这在 Tau-Bench 智能体评估套件中得到了体现。它们能够与我们的 Responses API 兼容,并设计用于智能体工作流程,拥有出色的指令遵循能力。 - 超越专有模型的表现
:在 HealthBench(健康对话)评估中,gpt-oss 模型甚至超越了 OpenAI o1 和 GPT-4o 等专有模型。具体来说,gpt-oss-120b 在 HealthBench 上的准确率达到接近六成的水平,而 gpt-oss-20b 的准确率约为四十二点七个百分点。在竞争性编程 (Codeforces)、通用问题解决 (MMLU 和 Humanity’s Last Exam) 以及竞技数学 (AIME 2024 & 2025) 方面,gpt-oss-120b 均超越了 OpenAI o3-mini 并与 o4-mini 持平或超越。 -
在竞技数学方面,gpt-oss-120b 和 gpt-oss-20b 在 AIME 2024 和 2025 评估中均表现突出,其中 gpt-oss-120b 在 AIME 2024 上的准确率超过九成,接近九十六个百分点,在 AIME 2025 上的准确率更是达到超过九十七个百分点。 -
在博士级别科学问题 (GPQA Diamond) 上,gpt-oss-120b 的准确率达到九成,gpt-oss-20b 在无工具情况下准确率约为七十一点七个百分点。 - 高度自定义与灵活性
:这些模型完全可定制,提供完整的思维链 (CoT) 功能,并支持结构化输出。开发者还可以根据任务需求调整推理力度(低、中、高),以平衡延迟和性能,实现低延迟的最终输出。
模型架构与训练:先进技术的融合
gpt-oss 模型采用了最先进的预训练和后训练技术,尤其注重推理、效率和在各种部署环境中的实际可用性。
- Transformer 与专家混合 (MoE) 架构
: -
每个模型都是一个 Transformer 架构,巧妙地利用专家混合 (MoE) 机制,大大减少了处理输入所需的活跃参数数量。 - gpt-oss-120b
:总参数量为一百一十七亿,但每个 token 激活的参数量仅约为四点七亿。它有三十六层,包含一百二十八个专家,其中每次处理仅有四个专家活跃。 - gpt-oss-20b
:总参数量为二十一亿,每个 token 激活的参数量约为三十六亿。它有二十四层,包含三十二个专家,同样每次处理仅有四个专家活跃。 - 创新注意力机制与位置编码
:模型采用交替的稠密和局部带状稀疏注意力模式,类似于 GPT-3。为进一步提高推理和内存效率,它们还使用了分组多查询注意力,组大小为八。位置编码采用旋转位置嵌入 (RoPE),并原生支持高达一百二十八千的上下文长度。 - 精心的训练数据与后训练流程
:模型主要在英文文本数据集上进行训练,重点关注 STEM(科学、技术、工程、数学)、编码和通用知识。所用的 o200k_harmony 分词器也是开源的。后训练过程类似于 o4-mini,包括一个监督微调阶段和一个高计算量的强化学习 (RL) 阶段,旨在使模型与 OpenAI 模型规范对齐,并在生成答案前学会应用 CoT 推理和工具使用。
安全性:开放模型发布的核心基石
安全性是所有模型发布的基础,对于开放模型尤为重要。
- 综合安全训练与评估
:gpt-oss 模型经过全面的安全训练和评估。在预训练期间,我们过滤了与 CBRN(化学、生物、放射、核)相关的有害数据。在后训练中,利用审慎对齐和指令层级来教导模型拒绝不安全提示,并防御提示注入攻击。 - 对抗性微调风险评估
:为了评估开放模型发布后可能被恶意微调的风险,我们对 gpt-oss-120b 的对抗性微调版本进行了测试。结果显示,即使经过我们领先训练堆栈的鲁棒微调,这些恶意微调模型也未能达到我们“准备框架”下的高能力水平。这一方法得到了三方独立专家组的审查,为开放权重模型的安全标准设定了新标杆。 - 思维链 (CoT) 的监督与使用原则
:我们并未对 gpt-oss 模型的 CoT 进行直接监督,这对于监测模型的不良行为、欺骗和误用至关重要。然而,开发者应注意,不应在应用程序中直接向用户展示 CoT,因为它们可能包含幻觉或有害内容,或不符合安全政策的信息。 - 社区参与与红队挑战
:为促进更安全的开源生态系统,我们正在举办一场“红队挑战赛”,鼓励全球研究人员、开发者和爱好者识别新的安全问题,并为此设立了大约四十万七千三百美元的奖金。
广泛的可用性与灵活部署:AI 触手可及
gpt-oss-120b 和 gpt-oss-20b 的权重可在 Hugging Face 上免费下载,并原生支持 MXFP4 量化,显著提高了内存效率。
- 高效运行
:gpt-oss-120b 仅需八十GB内存即可运行,而 gpt-oss-20b 仅需十六GB内存,非常适合边缘设备或本地推理。 - 便捷集成
:我们开源了 Harmony 渲染器(支持 Python 和 Rust),并提供了 PyTorch 和 Apple Metal 平台的推理参考实现,以及一套示例工具集,以便开发者更轻松地采用。 - 无处不在的部署
:模型被设计为可在任何地方运行——本地、设备上或通过第三方推理提供商。我们与 Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio 等领先的部署平台以及 NVIDIA、AMD、Cerebras 和 Groq 等硬件领导者合作,确保了广泛的可访问性和优化的性能。 - Windows 设备支持
:微软也正将 GPU 优化的 gpt-oss-20b 模型引入 Windows 设备,通过 ONNX Runtime 和 AI Toolkit for VS Code,使 Windows 开发者能够轻松构建开放模型。
开放模型的重要性:加速 AI 的民主化进程
gpt-oss-120b 和 gpt-oss-20b 的发布标志着开放权重模型迈出了重要一步,它们在推理能力和安全性方面都带来了有意义的进步。
- 加速创新与研究
:开放模型补充了我们托管模型的能力,为开发者提供了更广泛的工具,以加速前沿研究、促进创新,并在广泛用例中实现更安全、更透明的 AI 开发。 - 降低准入门槛
:这些模型降低了新兴市场、资源受限领域和小型组织的准入门槛,使得他们能够运行和定制自己的 AI 基础设施,无需承担专有模型的预算或灵活性限制。 - 赋能全球 AI 发展
:在全球范围内提供强大的、可访问的工具,有助于拓展 AI 的民主化进程,赋能个人、企业乃至政府。
地址:https://github.com/openai/gpt-oss
✨ 2: OpenAI GPT-OSS Recipes
OpenAI GPT-OSS 模型优化与微调

OpenAI GPT-OSS Recipes项目汇集了演示和应用OpenAI GPT-OSS 20B和120B模型优化及微调技术的脚本。该仓库的核心功能涵盖了多项推理优化,包括张量并行、Flash Attention、持续批处理以及专家并行等,旨在提升模型推理效率。此外,它还提供了一个监督式微调(SFT)脚本,支持全参数训练和LoRA(低秩适应)训练,用户可以根据需求选择模型大小,并通过配置参数灵活调整训练过程,从而实现对GPT-OSS模型的性能优化和定制化。
地址:https://github.com/huggingface/gpt-oss-recipes
✨ 3: Kitten TTS
轻量高音质文本转语音模型

Kitten TTS是一个开源的、超轻量级文本转语音模型,其主要功能在于以极小的模型体积(仅1500万参数,小于25MB)实现高质量的语音合成,且完全针对CPU优化,可以在任何设备上高效运行,提供快速的实时推理能力。该项目目前处于开发者预览阶段,旨在提供广泛部署的便捷性。
地址:https://github.com/KittenML/KittenTTS
✨ 4: Gemini-Flow
AI智能体协调编排

Gemini-Flow 是一个革命性的多模型AI编排平台,专注于为企业解决复杂问题,通过独有的A2A(Agent-to-Agent)和MCP(Model Context Protocol)双协议,实现对66个专业AI代理的智能协调、自动扩展和集群编排。该平台具备拜占庭容错和自动故障转移能力,确保生产级的稳定性和卓越性能,例如高达每秒396,610次SQLite操作和低于75毫秒的路由延迟;它还提供可选的量子增强处理能力,以优化复杂的计算任务,并且构建于rUvnet生态系统的前瞻性工作之上,将集体智能带入AI编排的新维度。
地址:https://github.com/clduab11/gemini-flow
(文:每日AI新工具)