月度归档: 2025 年 4 月
o3狂烧3万美金解一题,反被AGI榜单除名!试错1024次不如10岁小孩哥4分钟
OpenAI的o3推理模型成本从预估的3000美元飙升至3万美元,远超预期。尽管o3-high试图通过暴力试错生成大量文本解答问题,但被ARC-AGI系统排除在外,因为每个任务的成本高达3万美元。
让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA
论文提出MoTCoder模型,通过模块化思维显著提升大语言模型在复杂编程任务中的准确率与可维护性。团队已开源代码、模型和数据集供在线体验。
速递|“AI教育卡位战”Anthropic发布”学习模式”Claude,教育版套餐能否实现2025年收入翻倍
Anthropic推出Claude教育版套餐以回应OpenAI ChatGPT计划,该套餐包括学习模式帮助学生批判性思考,并能分析招生趋势和自动化处理咨询。
智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作
V-Droid使用验证器驱动架构在移动GUI任务自动化中实现了高成功率和低延迟。通过解析UI界面提取基本操作,并利用精细训练的验证器评估候选动作,V-Droid在多个基准测试中的任务成功率显著提高,决策响应时间降至0.7秒。
ICLR 2025 Spotlight 参数高效微调新范式!上海交大联合上海AI Lab推出参数冗余微调算法
本文提出参数冗余微调范式NoRM,在LoRA基础上通过SVD分解和Sim-Search方法去除冗余参数,显著提升指令微调、数学推理和代码生成任务性能。
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖
谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务,标志着AI向通用人工智能(AGI)又迈进了一步。