机器之心，作者每时AI - 第70页共134页

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

2025年3月25日16时作者机器之心

答案的情况，比如以下例子：
根据视频中本车的动作，它接下来最有可能立即采取的行动是什么？
A：右转，

2025年3月25日16时作者机器之心

本文介绍了一种全新的架构设计 Personalize Anything，它能够在无需训练的情况下完成概念主体的高度细节还原，并支持位置控制和多种应用。通过创新的标记替换机制和特征扰动技术，团队展示了其在保真度、可控性和多功能性上的优势，并将其应用于布局引导生成、多物体组合等场景。

2025年3月25日16时作者机器之心

阿里通义千问团队发布新模型Qwen2.5-VL-32B，相比前代模型提升回复符合人类偏好、数学推理能力及图像细粒度理解与推理。

2025年3月25日11时作者机器之心

大学奥斯丁分校
最新评测基准 SPIN-Bench，用一套 “组合拳” 暴击了大模型的软肋。
研究显

2025年3月24日23时作者机器之心

本文介绍了一种名为UFO的方法，它能够通过开放式的语言界面实现分割和检测任务，无需额外解码器，利用多模态大模型的图像表征能力。

2025年3月24日23时作者机器之心

论文提出Uni-Gaussians方法，利用高斯基元实现相机与激光雷达数据的联合重建。该方法在Waymo公开数据集上评估表现优异，能够准确模拟动态驾驶场景中的各种移动实体，并保持高质量渲染质量。

2025年3月24日16时作者机器之心

架构的挑战。
在众多非 Transformer 架构中，Mamba 无疑是声量较大且后续发展较好的一

2025年3月24日16时作者机器之心

重要任务，旨在让 AI 根据
自然语言描述
在 3D 场景中找到指定物体。
具体而言，给定一个 3D

2025年3月24日16时作者机器之心

谷歌在MWC上推出Project Astra与Gemini Live集成的新AI功能，包括屏幕共享和实时视频回答问题。这些功能提升了实时人工智能交互的能力，使Gemini Live能够更好地理解和响应用户的需求。

2025年3月24日16时作者机器之心

设计 RLHF 的奖励模型时也是一样。
我们知道，一个 RLHF 算法是否成功的一大关键在于其奖励模