英伟达让机器人「做梦学习」,靠梦境实现真·从0泛化
英伟达的DreamGen项目通过梦境学习技术,仅凭少量现实视频数据就能让机器人学会执行多种新任务。该技术利用AI视频世界模型生成神经轨迹,显著提升了复杂任务的成功率,并首次实现了从0开始的泛化能力。
英伟达的DreamGen项目通过梦境学习技术,仅凭少量现实视频数据就能让机器人学会执行多种新任务。该技术利用AI视频世界模型生成神经轨迹,显著提升了复杂任务的成功率,并首次实现了从0开始的泛化能力。
MiniMax发布的新模型MiniMax-Speech通过可学习的说话人编码器和Flow-VAE架构提高了文本转语音的质量与保真度,在零样本情况下实现了跨语言合成,多项测试中表现优异。
谷歌Gemini 2.5 Pro视频理解能力提升,可在6小时内处理长达6小时视频,并实现视频到应用的转化、精准片段检索及强大的时序推理等新功能。
来自港中文、北大和上海AI Lab的研究团队将思维链(CoT)与生成模型结合,显著提高了自回归图像生成的质量,并提出了潜力评估奖励模型(PARM)及其增强版本(PARM++),进一步优化了图像生成质量。