AI复现顶尖AI论文?OpenAI最新测评:Claude 3.5得分第一
PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示,Claude 3.5 Sonnet表现最好,平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准,有助于加速科学发现并推动开放协作。
PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示,Claude 3.5 Sonnet表现最好,平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准,有助于加速科学发现并推动开放协作。
UC San Diego团队通过实验验证GPT-4.5不仅通过了图灵测试,其表现甚至超过真人。胜率高达73%,远高于对照组人类对手的50%。研究发现人设提示是关键因素。
Runway公司发布了新一代视频生成模型Gen-4,解决了场景一致性问题并增强了保真度、动态运动捕捉和可控性。Gen-4的核心优势包括高动态与真实感、高度一致性及精准理解与执行能力。
阿里发布Qwen2.5-Omni-7B模型,支持实时语音和视频聊天,并开源其技术报告。该模型采用’思考者-说话者’架构实现跨模态处理能力,性能达到同类最佳水平,在多个垂直领域表现出色。
OpenAI正式推出GPT-4o原生图像生成功能,Sam Altman认为这代表了赋予用户创作自由度的新高度。亮点包括上下文理解、复杂指令执行、文本与图像融合及聊天式交互能力。该功能已向ChatGPT和Sora的Plus、Pro、Team用户以及免费用户提供,并计划扩展至企业版、教育版和开发者API使用。
谷歌发布Gemini 2.5 Pro实验版,通过显著增强的基础模型和改进的后训练技术,在多个主流基准测试中实现了大幅领先,尤其在推理和代码能力上表现惊人。