SkyReels-Audio:让肖像”动”起来 – Skywork AI开创全能音频驱动的人像视频生成技术
SkyReels-Audio 是 Skywork AI 团队开发的一款创新框架,能够将静态图像或视频与语音输入相结合,生成高度逼真且唇形同步的说话人像视频。该框架基于预训练的视频扩散变换器构建,支持无限长度的视频生成和编辑,并提供多模态控制能力。
SkyReels-Audio 是 Skywork AI 团队开发的一款创新框架,能够将静态图像或视频与语音输入相结合,生成高度逼真且唇形同步的说话人像视频。该框架基于预训练的视频扩散变换器构建,支持无限长度的视频生成和编辑,并提供多模态控制能力。
荣耀成功完成上市辅导备案,计划成为A股市场首家以AI终端生态为核心定位的企业。然而,其面临市场份额下滑的挑战。新任CEO李健掌舵下,荣耀正致力于进行深刻的AI转型,以重塑市场地位。
阿里发布WebDancer,作为端到端自主信息搜索智能体。它能实现复杂任务如网页遍历、信息搜索和问答,并已开源训练框架。通过四阶段训练范式提升推理、工具使用及泛化能力,已在GAIA和WebWalkerQA上取得显著成绩。
具身智能项目融资热度在降温,创始人态度变化反映行业’最直接水温’。部分投资人和FA开始减少对接具身智能本体项目,投资机构更关注团队能力和具体场景的落地情况。
享刻智能完成数千万元Pre-A轮融资,推出能自主烹饪的LAVA机器人,并与海外连锁餐厅签订千台级量产订单。公司致力于推动机器人在厨房场景的应用和技术升级,目标成为行业领导者。
谷歌推出Gemini CLI工具,允许开发者通过自然语言与Gemini AI模型交互,连接本地代码库。这是谷歌推动AI在编程工作流中使用的举措之一。
OpenAI发文警告称中国智谱正在快速扩张,并将其列为全球重要竞争对手。成立于2019年的智谱已在中东、英国等地设立办事处,获得超14亿美元国家支持投资,正向全球国家提供主权大语言模型基础设施等技术产品。
北京大学相机智能实验室联合团队提出了一种结合草图与文本引导的视频实例重绘方法 VIRES,支持对视频主体的多种编辑操作。该方法在多个指标上优于现有模型,已上线至HyperAI超神经官网教程板块。