真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究
中山大学和普渡大学研究人员发现路由LLM范式下的性能随着LLM候选数量的增加而迅速提升的新现象,并通过2亿条记录构建了全面的评测框架RouterEval,该框架允许研究者使用较少计算资源参与研究。
中山大学和普渡大学研究人员发现路由LLM范式下的性能随着LLM候选数量的增加而迅速提升的新现象,并通过2亿条记录构建了全面的评测框架RouterEval,该框架允许研究者使用较少计算资源参与研究。
Zochi发表的两篇论文在ICLR研讨会上通过同行评审,一篇获得了7/6/7的成绩,另一篇获得7/7的成绩。此外,Zochi还展示了其科研过程中的多智能体协作框架,并且生成了研究报告。
清华大学智能产业研究院联合商汤研究院等机构发布首个基于通用动作空间的具身基础模型框架UniAct,解决了具身智能中的动作空间异构一致性难题。通过视觉语言模型实现跨模态泛化,在多项权威评测中超越参数量达14倍的OpenVLA对手。
可灵视频生成产品接入R1后,通过调用AI助手设计提示词,即使输入单个字也能精准生成相关视频。DeepSeek帮助设计的提示词不仅扩充细节,还能将复杂抽象的内容具体化。新成果ReCamMaster则是镜头可控的生成式视频再渲染框架,支持多种镜头操作重现复杂场景。
港科广团队提出OpenGS-SLAM解决方案,仅凭RGB图像实现高精度定位与逼真场景重建。通过点图回归网络生成帧间一致的点图,并结合3D高斯地图进行优化,显著提高跟踪精度和鲁棒性。
东南大学、香港中文大学和蚂蚁集团的研究团队提出了一种名为LMM-R1的两阶段多模态基于规则强化学习框架,显著提升了小型多模态大模型的数学推理能力。该框架在仅需240元GPU成本下训练出性能卓越且适用于工业级应用的多模态模型。
马斯克收购视频生成初创公司Hotshot,该团队仅4人用了两年时间开发出多个视频生成模型。老马表示即将发布自己的视频生成模型Grok。Hotshot的投资者包括Stripe前高管、Reddit联合创始人等。
首个集运动、导航、灵巧操作于一体的人形机器人智能体Being-0,由北京大学卢宗青团队提出。其模块化的分层端到端架构允许机器人像人类一样完成复杂任务,并仅需互联网视频和少量真机数据。