7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分
DeepSeek研究团队发表LADDER论文,介绍一种通过递归问题分解和强化学习提升AI模型能力的新方法。该方法使7B规模的Qwen模型在MIT Integration Bee比赛中得分达到90分,超越了o1的成绩。
DeepSeek研究团队发表LADDER论文,介绍一种通过递归问题分解和强化学习提升AI模型能力的新方法。该方法使7B规模的Qwen模型在MIT Integration Bee比赛中得分达到90分,超越了o1的成绩。
5人团队3小时完成开源复刻版OpenManus,展示了模块化Agent系统、实时反馈机制及强大工具链等关键要素。通过对比官方demo和开源成果,揭示了实现Manus的合理路径及其背后的三大核心技术:模块化Agent系统、透明思维过程以及协作工具集。
基于多模态大语言模型的DINO-XSeek目标检测模型实现了精准感知和理解复杂场景中的目标,能够通过自然语言描述识别出具体细节,如人物的穿着、位置等信息。该模型结合了视觉与语言理解能力,在实际应用中可应用于工业制造、安防、农业等多个领域。
OpenAI计划推出定制版Agent服务,针对不同用户群体的收费从2000美元到20000美元不等。这一举措标志着其从消费级应用转向高端商业化应用。
腾讯混元AI视频发布新功能——图生视频,支持从图片生成视频。通过实测展示了生成效果的进步,并提出了四大难题测试:符合现实物理规律、无中生有、遵循指令和连贯一致性。尽管进步显著,但仍需努力达到100%的真实性和一致性。
计算机最高奖图灵奖揭晓。强化学习先驱Andrew Barto与Richard Sutton共同获奖,他们被评价为’引领基础AI技术开发的研究人员’。两位是师徒关系,Barto和他的博士研究生Sutton将马尔可夫决策过程的数学基础应用于强化学习框架中。
端侧AI热度不减,联想发布多款AI PC新品。杨元庆表示,在短期内端侧AI性能有望提升3倍,并强调算力和模型效率的重要性。联想已推出包括AI PC在内的多种智能设备,目标是到2025年实现80%以上的PC为AI PC。杨元庆认为AI核心在于数据管理,联想将推进混合式AI策略来平衡本地智能与云端智能的关系。
智平方宣布完成数亿元Pre A+轮融资,敦鸿资产、云启资本和国投创盈等参与。公司致力于加速端到端VLA模型迭代及具身智能机器人的商业应用,目前已有多个应用场景并获得客户认可。创始团队在AI和机器人领域拥有深厚背景。