微软悄悄发布了全新纯视觉AI工具!一张屏幕截图,即可精准操作你的电脑!

微软发布OmniParser V2版本,能将屏幕截图转化为LLM可读懂的结构化元素,提高多模态大模型的视觉识别准确度。适用于自动化测试、操作等场景任务。通过像素级屏幕理解能力,支持多种大型语言模型。

FilmAgent:哈工大深圳×清华,AI多智能体框架引领虚拟3D电影制作新纪元

FilmAgent是由哈尔滨工业大学(深圳)与清华大学联合开发的一款基于大型语言模型的多智能体协作框架,用于实现虚拟3D空间中的端到端电影制作自动化。它通过批评-修正-验证和辩论-评判策略优化剧本内容并确定镜头设置。