Claude Opus 4.1火速发布!坐稳编程之王,官方:马上还有大更新
Anthropic发布Claude Opus 4.1,编程性能提升74.5%,在SWE-bench上超越Gemini 2.5 Pro和o3。客户反馈表示Opus 4.1能精准定位修复代码bug,模型无害回复回应率达到99.06%。
Anthropic发布Claude Opus 4.1,编程性能提升74.5%,在SWE-bench上超越Gemini 2.5 Pro和o3。客户反馈表示Opus 4.1能精准定位修复代码bug,模型无害回复回应率达到99.06%。
北大团队发表综述《Towards Efficient Privacy-Preserving Machine Learning》,系统梳理隐私保护机器学习领域的协议、模型和系统优化,提出跨层次协同设计与优化的重要性。
新智元报道,OpenAI、谷歌和Anthropic发布不同模型。Anthropic发布Claude Opus 4.1,在编码性能和功能上有所提升。对比测试中Claude Opus 4.1表现优于Gemini-2.5-pro等模型,但需谨慎使用较弱的OpenAI-OSS-120B。
Anthropic发布新模型Claude Opus 4.1,相比前一代在智能体任务、真实世界编程和推理能力上有所提升。Claude Opus 4.1现已面向多个用户开放使用,并提供了详细的API定价信息。
谷歌DeepMind发布第三代通用世界模型Genie 3,可以生成实时交互式环境,实现实时导航、一致性和高分辨率。其突破包括实时性能、长时程一致性以及可提示的世界事件能力。
OpenAI开源了GPT-oss模型,支持1200亿和200亿参数量的两种版本。120B版需要80GB GPU运行,20B版则只需16GB GPU即可使用。该模型具有函数调用、网络搜索等高级功能,且性能与OpenAI前沿模型相媲美。
OpenAI发布开源推理模型gpt-oss,采用混合专家架构和4位量化方案。gpt-oss-120b可在单个H100GPU上运行,gpt-oss-20b在16G内存笔记本上可运行。模型在Codeforces和Humanity’s Last Exam等测试中表现优于现有模型,但幻觉问题较高。