一键部署 gpt-oss-20b,实测开源推理模型新 SOTA,性能直逼 o3‑mini
OpenAI 开源了两个大模型 gpt-oss-120b 和 gpt-oss-20b,前者适合复杂推理和知识密集型场景,后者适用于低延迟、本地或专业垂直领域。gpt-oss-120b 性能媲美 OpenAI o4-mini,gpt-oss-20b 也接近 o3-mini 的表现。HyperAI超神经提供了部署 gpt-oss-20b 的教程,并分享了模型在实际任务中的测试结果。
OpenAI 开源了两个大模型 gpt-oss-120b 和 gpt-oss-20b,前者适合复杂推理和知识密集型场景,后者适用于低延迟、本地或专业垂直领域。gpt-oss-120b 性能媲美 OpenAI o4-mini,gpt-oss-20b 也接近 o3-mini 的表现。HyperAI超神经提供了部署 gpt-oss-20b 的教程,并分享了模型在实际任务中的测试结果。
OpenAI开源了GPT-oss模型,支持1200亿和200亿参数量的两种版本。120B版需要80GB GPU运行,20B版则只需16GB GPU即可使用。该模型具有函数调用、网络搜索等高级功能,且性能与OpenAI前沿模型相媲美。
AI 在伯克利挑战赛上击败顶尖数学家,只需几分钟便破解复杂难题。马斯克预测明年AI或比人类更聪明,Schmidt则警告可能会引发「温和的死亡事件」。网友观点不一,有人担忧取代风险,也有人乐观看待其潜力和未来监管需求。
陶哲轩对比Claude和o4-mini在Lean中形式化代数证明的实验结果,Claude用时约20分钟完成任务,而o4-mini因对称性问题直接弃题。实验揭示了自动化工具不同尺度上的效率表现以及与人工干预之间的微妙平衡。
今日AI焦点:Anthropic启动模型’福祉’研究引思考,Adobe升级Firefly创意工具,xAI拟融资200亿美元;微软、OpenAI进展动态,Google发布Recall功能和ZAPBench数据集。
OpenAI 推出 o4-mini 驱动的轻量版深度研究功能,提供给多种用户使用。轻量版在智能程度接近完整版但回复更简洁,降低了服务成本。该功能从今日向所有 Free 用户开放测试。
谷歌发布首个混合推理模型Gemini 2.5 Flash,引入了革命性”思考预算”功能,性能显著提升,在多个基准测试中表现优异。
OpenAI发布了两款新的推理模型o3和o4-mini,能够处理复杂的编程和视觉任务,并首次实现了‘图像思维’能力。这些模型提供了更快、更高效且更具成本效益的解决方案,向开源方向迈进的同时也推出了Codex CLI智能体以帮助用户执行编程任务。