AI 版《猫和老鼠》刷爆外网!零剪辑自动生成,60 秒神作刷新 AI 视频天花板
伯克利、斯坦福联合英伟达的研究成功生成了长达一分钟的流畅视频,且保持一致性和故事完整性。通过引入测试时训练层提升扩散Transformer模型能力,实现了复杂的多场景故事生成。研究使用《猫和老鼠》动画集进行验证,展示了AI在复杂动态场景中的学习与适应能力。
伯克利、斯坦福联合英伟达的研究成功生成了长达一分钟的流畅视频,且保持一致性和故事完整性。通过引入测试时训练层提升扩散Transformer模型能力,实现了复杂的多场景故事生成。研究使用《猫和老鼠》动画集进行验证,展示了AI在复杂动态场景中的学习与适应能力。
NotaGen 是首个针对古典音乐交响乐的 AI 音乐生成模型,来自中央音乐学院、清华和北航的开发人员宣布其开源。模型涵盖基础版及增强版NotaGen-X,并在专业数据集上进行了微调,实现高度可控性和专业性,提升了古典音乐生成质量。
基于多模态大语言模型的DINO-XSeek目标检测模型实现了精准感知和理解复杂场景中的目标,能够通过自然语言描述识别出具体细节,如人物的穿着、位置等信息。该模型结合了视觉与语言理解能力,在实际应用中可应用于工业制造、安防、农业等多个领域。
VLM-R1 是一个将 DeepSeek R1 方法应用于视觉语言模型的新开源项目,展示了其在稳定性、泛化能力等方面的优越性能,并提供简单易用的训练流程。
微软发布PIKE-RAG,旨在提高RAG系统在复杂企业场景下的知识提取、推理和应用能力。该方法聚焦于连贯的推理逻辑构建,并提出针对不同任务的不同技术策略。
BetterYeah AI CEO张毅在MEET2025智能未来大会上分享了企业Agent应用加速成功的关键——利用数据和AI驱动的方法建立反馈评估-自学习-验证的闭环。目前已有数百家头部企业在其平台上完成生产级Agent落地,提高了企业的生产力并带来了业务价值提升。张毅强调了建立这一闭环的重要性,并介绍了BetterYeah平台在帮助企业开发Agent应用方面的功能和优势。