学术归档 - 第14页共283页

演讲生成黑科技，PresentAgent从文本到演讲视频

2025年7月18日23时作者机器之心

本项目提出 PresentAgent 系统，能够将长篇文档转化为带解说的演示视频。PresentAgent 通过模块化流程实现视觉和语音同步生成，并引入 PresentEval 评估框架全面考量内容、视觉与理解质量。

2025年7月18日23时作者机器之心

苹果发布2025年Apple Intelligence基模型技术报告，介绍了两种多语言、多模态基础模型，并展示了其在提升用户价值的同时实现功能扩展与质量优化方面的成果。

2025年7月18日23时作者 PaperWeekly

的数字人与机器人需要精准解译多模态交互信息，深度挖掘人类内在情感状态，从而实现更具真实感与自然性的人

2025年7月18日23时作者极市干货

出 FreeMorph：无需训练、30 秒完成高质量图像 morphing，仅靠改进 Stable

2025年7月18日23时作者机器之心

世界人工智能大会推出首仮刊物《WAIC UP!》，邀请全球AI及跨领域先锋力量，共同探索技术跃迁、自我边界和未来文明的可能性。

2025年7月18日16时作者 HyperAI超神经

大魁北克人工智能研究所 Mila 提出了 La-Proteina，这是一种基于部分潜在流匹配的原子级

2025年7月18日16时作者 PaperWeekly

》正式刊登了来自清华、面壁等研究团队联合研发的高效端侧多模态大模型 MiniCPM-V 核心研究成果

2025年7月18日16时作者机器之心

Mistral AI 推出了多款开源模型，并展示了升级后的 Le Chat 模型，其功能几乎与 ChatGPT 一致。Le Chat 新增了深度研究模式、语音模式、原生多语言推理等新特性。

2025年7月18日16时作者 PaperWeekly

点击关注蚂蚁集团招聘公众号获取最新AI招聘信息和职业机会

2025年7月18日14时作者 GiantPandaCV

本文探讨了如何为新的共享内存逻辑Layout选择Swizzle模板参数B、M和S。通过简化分析，确定了M、S与PTX指令和GPU共享内存多Bank结构之间的关系，并基于实例推导出合适的B值，以避免Bank Conflict。