多模态智能体归档

演讲生成黑科技，PresentAgent从文本到演讲视频

2025年7月18日23时作者机器之心

本项目提出 PresentAgent 系统，能够将长篇文档转化为带解说的演示视频。PresentAgent 通过模块化流程实现视觉和语音同步生成，并引入 PresentEval 评估框架全面考量内容、视觉与理解质量。

2025年7月10日16时作者新智元

全球最聪明AI，一上线就刷爆全球榜单登顶TOP 1，把所有其他大模型都踩在脚下。重磅登场的Grok

2025年6月15日16时作者机器之心

本期通讯解读 Agentic AI 时代的流量入口变化。通用 Agent 并非唯一可能性，不同玩家通过语音指令、自然语言编程等路径争夺新入口。

2025年6月11日16时作者 PaperWeekly

VRAG-RL 是一种基于强化学习的视觉检索增强生成方法，通过引入多模态智能体训练，实现了视觉语言模型在检索、推理和理解复杂视觉信息方面的显著提升。

2025年5月13日14时作者 AI探索时代

2025年AI技术将深入千行百业。北京智合标准中心发布全国首个AI应用产业全景图谱，涵盖基础技术、产业融合等五大层，并提供政策、资本等支持。欢迎更多单位申报，包括案例展示、形象塑造、资源链接及标准编制机会。

2025年3月3日16时作者量子位

阿里通义实验室提出PC-Agent框架，实现复杂PC任务自动化。该框架通过主动感知模块和层次化多智能体协作结构处理跨应用工作流指令。实验表明其在复杂任务上表现优于现有方法。

2025年1月22日23时作者 NLP工程化

phidata 是一个开源框架，用于构建多模态智能体，并提供美观的用户界面进行交流，参考更多文档及资源。