Vision-R1:多模态领域的DeepSeek R1-Zero,7B参数比肩OpenAI O1

Vision-R1项目通过两阶段策略解决了多模态推理数据稀缺的问题,提出冷启动初始化和RL训练方案,并创新性地引入PTST策略和HFRRF奖励函数,显著提升了模型在多个数学推理基准测试中的表现。

何恺明带队驯服AI更懂物理!去噪方法+哈密顿网络,清华校友一作

何恺明团队提出一种结合哈密顿神经网络的去噪方法,旨在让AI更懂物理。该方法采用Block-wise哈密顿量和掩码建模策略来改进传统HNN,并通过实验展示了其在正向模拟、表征学习和轨迹插值任务中的优势。

开源5天斩获1w星星,重新定义多智能体协作自动化,以后上班就跟玩一样。

OWL 是一个基于CAMEL-AI框架的开源多智能体协作系统,专注于复杂任务自动化。它通过动态角色分配与 60+ 智能工具协同(包括浏览器自动化、代码执行、多模态分析等),实现实时数据检索、跨平台交互和复杂逻辑处理,在 GAIA 基准测试中以58.18分位列开源框架第一。

重磅!谷歌开源Gemma-3模型:支持多模态、128K输入,27B版本在大模型匿名竞技场超过DeepSeeK V3,免费商用授权

Google开源第三代Gemma 3系列大模型,包含4个不同参数规模版本,支持多模态输入,并且表征能力非常强大。Gemma 3系列在多个评测中表现优秀,排名全球第9。