港大联合清华发布AI可控角色视频生成框架,将任意角色图像与目标视频结合生成高质量角色视频。
AnyCharV 是一个可控角色视频生成框架,通过细到粗的引导策略和两阶段训练机制实现高保真度的角色细节及复杂场景融合。该技术已在2月12日发布,支持多种应用场景如艺术创作、影视制作等,并提供高效生成能力。
AnyCharV 是一个可控角色视频生成框架,通过细到粗的引导策略和两阶段训练机制实现高保真度的角色细节及复杂场景融合。该技术已在2月12日发布,支持多种应用场景如艺术创作、影视制作等,并提供高效生成能力。
Eko是通过提示词实现自动化操作的开源JavaScript框架,支持全平台运行,适用于各种任务如数据抓取、文件管理等。
微软开源的Data Formulator是一款AI可视化工具,通过多模态交互、强大的迭代支持和智能数据处理等特性,帮助用户高效创建复杂数据可视化作品。
DeepSeek团队发布的新多模态模型Janus-Pro通过优化训练策略、扩展数据集和扩大模型规模提升了性能,实现高质量的文本到图像生成及多模态理解。
OpenAI发布的Realtime API Agents项目能让开发者在20分钟内创建一个实时语音Agent应用,该应用展示了智能体交接、后台升级和状态机提示等特性。
字节跳动开源的Text-to-Edit项目通过文本输入实现精确控制,采用高帧率采样和慢-快处理技术提升视频理解能力,支持用户定制视频风格。
这是一款开源的零样本人像视频动画项目X-Dyna,它能够通过驱动面部表情和身体动作将单张人像图片动画化,并且还能让背景动起来。该技术由扩散模型、动态适配器模块、局部控制模块等组成,能够生成流畅的肢体动作和自然的环境效果。
达摩院开源的AI妆容迁移项目基于潜在扩散模型,采用‘解耦-重构’范式和自监督学习策略。通过拉普拉斯金字塔分解纹理细节及迭代双重对齐模块,提升图像真实性、内容保留与妆容保真度,为化妆迁移任务提供全新解决方案。