字节黑科技 INFP,音频驱动的双边互动视频生成框架,实时生成,轻量又强大!

字节最新发布的INFP是一款新颖的声控头部生成框架,支持双边互动。它能够根据输入的双轨道音频实时生成虚拟头像,并实现角色自动切换、高度真实的表情与动作同步等特性。

11.6k星星!Facebook开源的儿童手绘AI转动画项目,输出稳定,儿童艺术创作赛道可落地。

Facebook开源的AnimatedDrawings项目让儿童简笔画里的主体角色动起来,其功能强大且适合儿童艺术创作领域。项目通过人物检测、图像分割、姿态估计和动画制作等步骤实现这一目标,并使用深度学习与传统图像处理方法相结合的技术解决相关难题。

阿里开源的声音克隆TTS重磅升级,CosyVoice2支持流式输出,更加流畅自然。

阿里的CosyVoice 2.0通过流式合成技术大幅降低延迟,提升语音交互体验。该模型支持多种语言和方言,并提供情感音频、顺口溜等多种功能,已开源。

分析和处理视频video-analyzer,微软离散的提示优化框架,通过语音简化博客文章的创作

本文介绍了五个开源项目:video-analyzer用于视频分析;Robo Blogger简化博客文章创作;nano-VectorDB是一个简单的向量数据库实现;Reservoirs Lab是一款可视化高维向量数据的轻量级应用;PromptWizard是一种任务感知提示优化框架。

超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!

Genesis 是一个开源的生成式物理引擎,专为机器人和物理AI的仿真平台设计。它能够精确模拟现实世界中的各种复杂物理现象,提升机器人开发和AI训练效率。刚开源一天便获得了超过9,000个星标。该引擎具备物理引擎、轻量级机器人仿真平台、强大的渲染系统及生成式数据引擎四大核心能力,支持实时高速仿真,并在多个应用领域展现出巨大优势。

阿里开源的声音克隆TTS重磅升级,CosyVoice2支持流式输出,更加流畅自然,用户。

阿里的CosyVoice2迎来重大升级,通过流式合成输出大幅降低语音识别和合成的延迟,提升软件、硬件交互体验。该模型支持多种语言及情感控制功能,已在多个开源项目中得到应用。