估计不少小伙伴一提到写PPT就头疼吧!写文案的时候,绞尽脑汁也想不出吸引人的内容,好不容易憋出几段话,总觉得干巴巴的毫无亮点。排版再好,过了一夜怎么看怎么别扭。
所以,中国科学院软件研究所、中国科学院大学和上海捷心科技的研究人员联合开源了PPT Agent。
PPT Agent可以像人类那样通过分析精美参考幻灯片,提取内容模式和布局结构,然后根据输入文档的内容,逐步编辑和优化幻灯片。同时还具备自我修正功能,确保生成的PPT在内容、设计和连贯性上都达到用户要求,极大节省时间和精力。

开源地址:https://github.com/icip-cas/PPTAgent
PPTAgent的核心技术与创新点在于其独特的两阶段演示文稿生成方法,这种设计灵感来源于人类制作PPT的自然流程。
传统的PPT生成方法往往直接从文本内容到幻灯片的转换,容易导致生成的演示文稿缺乏视觉吸引力和结构连贯性。而PPTAgent通过模仿人类“选择参考幻灯片并逐步编辑”的工作方式,巧妙地解决了这一问题。

在第一阶段,PPTAgent对参考演示文稿进行深入分析。它首先对幻灯片进行聚类,将它们分为结构幻灯片和内容幻灯片。结构幻灯片用于支撑演示文稿的整体组织,例如标题页和目录页;
内容幻灯片则用于传达具体信息,如项目符号列表或图表。通过利用大模型的强大能力,PPTAgent能够识别幻灯片的结构角色,并根据其文本特征进行分组。
对于内容幻灯片,会将其转换为图像,并应用层次聚类方法将相似的幻灯片图像分组。随后,PPTAgent利用多模态大模型分析这些图像,识别出每个聚类中的布局模式。这一过程不仅为后续的幻灯片生成提供了清晰的参考,还确保了生成的演示文稿在结构上的一致性和逻辑性。
在内容模式提取方面,PPTAgent进一步定义了一个详细的提取框架。每个幻灯片元素都被赋予了类别、描述和内容,这种结构化的表示方式使得幻灯片的内容组织更加清晰明了。

例如,一个幻灯片可能包含标题、正文、图像等元素,每个元素都有明确的描述和数据内容。这种细致的内容模式提取为后续的幻灯片生成提供了坚实的基础,使得PPTAgent能够更好地理解幻灯片的布局和内容组织。
进入第二阶段,PPTAgent的创新之处在于其基于编辑的生成方法。与传统的从零开始生成幻灯片的方法不同,PPTAgent通过选择合适的参考幻灯片,并对其进行逐步编辑,从而创建新的幻灯片。这种方法不仅保留了参考幻灯片的精心设计的布局和样式,还通过编辑操作实现了内容的更新和优化。PPTAgent设计了一系列编辑API,支持对幻灯片元素的编辑、删除和复制操作。
这些API结合HTML渲染技术,使得大模型能够以更直观的方式理解和修改幻灯片内容。与传统的XML格式相比,HTML格式更加简洁明了,易于操作,从而提高了生成过程的效率和准确性。
此外,PPTAgent还引入了一种自我修正机制,以增强生成过程的鲁棒性。在幻灯片生成过程中,生成的编辑操作将在REPL环境中执行,当操作无法应用于参考幻灯片时,REPL会提供执行反馈,帮助大模型调整其编辑操作。
通过这种迭代修正的方式,PPTAgent能够有效避免生成错误或不一致的幻灯片,确保最终生成的演示文稿在内容和结构上的高质量。
为了测试PPTAgent的性能,研究人员从Zenodo10K数据集中选取了50个作为参考演示文稿,并从相同领域收集了50篇文档作为输入,生成了500个演示文稿任务,覆盖5个领域、10种输入文档和10种参考演示文稿的组合。

结果显示,PPTAgent在内容、设计和连贯性三个维度上均显著优于现有的演示文稿生成方法。例如,与基于规则的DocPres和基于模板的KCTV相比,PPTAgent在内容质量上提升了12.1%至28.6%,在设计上提升了13.2%至40.9%,在连贯性上更是实现了25.5%至36.6%的大幅提高。这些结果表明PPTAgent能够生成高质量、视觉吸引力强且结构连贯的演示文稿。
(文:AIGC开放社区)