多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%
研究者提出了一种多元推理方法,结合多种模型和方法来提高推理模型在复杂基准上的准确率。该方法通过交互式定理证明器、代码自动验证和 best-of-N 算法等技术,显著提升了 IMO 组合问题和 ARC 谜题的解决能力,并解决了大量人类无法解答的问题。
研究者提出了一种多元推理方法,结合多种模型和方法来提高推理模型在复杂基准上的准确率。该方法通过交互式定理证明器、代码自动验证和 best-of-N 算法等技术,显著提升了 IMO 组合问题和 ARC 谜题的解决能力,并解决了大量人类无法解答的问题。
专注AIGC领域的专业社区分享了微软发布的新医疗AI助手Microsoft Dragon Copilot,它通过语音+文本的混合架构帮助医生记录临床信息,减少文书工作负担。Dragon Copilot已在香港多所公立医院试点应用,未来有望扩展至全球更多地区。
Infermove推行科技与重庆大学签署战略合作协议,将在具身智能技术的多个核心领域展开产学研合作。双方将聚焦Carri FLEX系列产品,攻克复杂环境下的智能决策难题,并推动具身智能技术在更多行业场景中的应用落地。
2025年开年以来,DeepSeek凭借低成本高性能优势迅速走红,周鸿祎表示其证明了大模型从不可用阶段进阶为完全可用,终结了一拥而上的‘百模混战’局面,支持开源生态对闭源模式的超越。
2025具身智能机器人发展大会将于3月7日在天津召开。本次大会由灵心巧手赞助,将邀请多位专家探讨人形机器人的技术研发、场景应用及产业链合作,并展示最新成果与创新技术。
科大讯飞星火X1大模型参数量升级至70B,并在数学推理任务上超越DeepSeek R1和OpenAI o1。该模型通过算法优化与垂直场景深度融合,展现了国产AI大模型的技术实力和发展新路径。