3行代码做出自己的数字人,GitHub爆火的国产项目你用上了吗?

 

当全球开发者还在为海外AI公司的高价订阅费发愁时,中国团队 (硅基智能)用开源代码给出了答案,只需一秒视频,短短30秒即可克隆你的数字分身;无需编程基础,三行代码即可构建实时对话数字人。

硅基智能推出的两大开源项目—HeyGemDUIX在全球最大开源社区GitHub上引发热潮,截止目前累计斩获14.6K+星标,其中 HeyGem 更是登上GitHub Trending的日榜与月榜,吸引了全球开发者的目光。

“开源即竞争力”-这条硅谷信奉的法则,正在被中国团队重新诠释。硅基智能旗下 HeyGem 与 DUIX 两大开源项目以14,600+星标的亮眼成绩,不仅点燃了国产AI数字人项目在开源社区的热度,更标志着数字人技术从实验室走向真实商业场景的历史性跨越

当海外数字人厂商还在用闭源技术收割企业客户,硅基智能旗下AI数字人团队选择了一条更”激进”的路径:完全开源、免费商用、一键部署。这不仅是技术的突围,更是一场关于AI普惠化的思想实验—”我们能否用开源生态,让数字人技术真正成为水电煤般的基础设施?”

本文为大家解析这两款开源数字人项目,带你了解它们的独特功能、技术突破、使用方法以及背后的开源精神。

HeyGem-数字人克隆的效率天花板

HeyGem 是硅基智能(DUIX.COM)推出的开源数字人短视频生成项目,只需提供1秒视频,即可在30秒内克隆出逼真的虚拟形象和声音,并在60秒内生成一段4K超清视频

得益于DUIX.COM自主研发的高效算法,HeyGem在复杂场景下依然能保持精准的唇形匹配丰富的表情动作输出,推理速度达到1:0.5(生成1秒视频仅需0.5秒),支持每秒32帧的4K画质输出,性能甚至超越电影级标准。

HeyGem 的技术亮点:

  • • 极致效率:仅需30秒即可完成人物形象和声音的克隆,60秒生成4K视频,这一速度在全球范围内处于领先地位,远超海外同类产品。
  • • 高质量输出:通过先进的机器学习算法,HeyGem实现了高精度的人脸动画、语音合成和实时渲染,即使在侧脸或部分遮挡等复杂场景下,也能保证100%准确的唇形同步和自然的表情输出。
  • • 轻量化设计:HeyGem无需依赖高性能GPU,普通消费级设备即可运行,极大降低了使用门槛。

与市场上动辄高昂收费的数字人产品(如海外知名产品HeyGen)相比,HeyGem以完全开源免费的模式,挑战了传统的闭源商业模型。

HeyGem 的安装与部署

HeyGem的安装和使用超级友好,官方提供一键安装包和详细文档,支持Windows和Ubuntu 22.04。

以Windows为例进行快速部署:

环境准备:Windows 10(19042.1526+),D盘(100G+),Nodejs、WSL2支持等。

推荐配置:

  • • CPU: 13th Gen Intel Core i5-13400F
  • • 内存: 32GB
  • • 显卡: RTX 4070

① 首先需要安装英伟达显卡驱动

NVIDIA驱动程序下载链接:https://www.nvidia.cn/drivers/lookup/

② 确认 Windows WSL2 是否安装并启用

如果未安装,可以在cmd窗口输入:wsl –install 进行安装。

之后可以通过 wsl –update 来进行更新,最后重启电脑生效。

③ 安装Docker桌面软件,根据自己电脑的CPU架构选择适当的安装包。

安装完成后,直接运行。接受协议并在首次运行时跳过登录。

之后可以进行到Docker软件界面,进行一些必要设置,比如更换国内镜像源、更改镜像下载地址为D盘目录等。

④ Docker部署heygem服务

克隆heygem项目,并进入deploy部署目录下

git clone https://github.com/duixcom/Duix.Heygem.git
cd Duix.Heygem/deploy

提示:默认下载代码为完整版,如果想要先体验Lite版,可以在Release页面下载Lite版本的项目压缩包。

Docker 快速部署

# 运行完整版:
docker-compose up -d

# 运行 Lite 版(13.5G,无 TTS/ASR): 
docker-compose -f docker-compose-lite.yml up -d

当在Docker中看到三个服务时,这表示成功(轻量版只有一个服务 heygem-gen-video

⑤ 最后下载官方构建的客户端安装包

下载到本地后,直接双击安装即可。最后打开HeyGem客户端进行使用,快速定制视频了。


DUIX-实时交互数字人引擎

而 DUIX 则是硅基智能(DUIX.COM)推出的开源数字人交互平台,它在 HeyGem 的数字人克隆技术基础上,进一步集成了大模型推理语音识别(ASR)和语音合成(TTS)能力,打造了一个支持实时交互的数字人引擎。

开发者只需几行代码,即可将DUIX嵌入任意系统,支持Android、iOS、网页、车载终端等多平台一键部署。

对话场景展示:

DUIX 的技术亮点:
  • • 实时交互:DUIX集成了语音识别、大模型推理和语音合成,实现了“能听、会说、懂你”的数字人交互体验。相比依赖云端API的海外方案,DUIX完全支持端侧运行,无需网络连接也能实现流畅对话。
  • • 低算力优化:DUIX专为低算力环境设计,无需高性能GPU,即使在边缘设备(如手机、平板)上也能稳定运行。这使得DUIX在网络条件不佳的场景(如地铁站、银行网点)仍能提供可靠服务。
  • • 多模态支持:DUIX不仅支持语音交互,还能结合HeyGem的视觉生成技术,输出同步的唇形与表情动作,打造沉浸式人机交互体验。

与 HeyGem 聚焦视觉生成不同,DUIX专注于“人机对话”环节,真正实现了“去中心化”的数字人能力释放。相比依赖云端的高成本海外方案,DUIX以开源免费的模式,提供了全球罕见的端侧实时交互数字人引擎。

实时交互体验

DUIX.com官方开通了免费体验,支持谷歌账号登录,可任意挑选人物角色进行实时交互对话。

点击官网主页左侧的“Create Conversation”或首页的“Create New Conversation”,创建一个新的对话角色。

比如我创建一个会说中文的男医生。

然后会弹出这个AI数字人的角色信息框,其中AppID和AppKey非常重要,可以通过这两个参数一键接入到你的Android、IOS或H5应用中直接调用。

最后就可以开启实时交互对话了(纯文本也支持)。

同时我们也可以进行数字人克隆(这个功能在官网是付费的),创建独属于自己的数字人。点击左侧“Create Avatars”

然后就会跳转到数字人克隆界面

尽量以本人形象及语音为准,因为系统会验证你的身份(如果是本地部署的服务,不会有这个)

最后就可以提交克隆,等待生成属于你自己的AI数字人了!生成之后你可以与它进行文本对话,也可以进行视频对话。

DUIX.COM 对于需要更高性能或定制化功能的用户也提供了可订阅的API服务,支持更复杂的交互场景和更高的调用频率。

毕竟默认的免费模式还是会有一定的使用限制,订阅API服务可提供更高的调用频率和数据处理能力,适合商业化部署。

API接口设计简单,开发者可以通过几行代码即可将DUIX的高级功能嵌入到自己的应用中,无论是网页、移动端还是车载终端。

HeyGem和DUIX二者共同构建了“生成-交互”的完整技术闭环。

写在最后

HeyGem和DUIX作为DUIX.COM旗下的两个开源项目,不仅在技术上实现了突破,还在开源精神和行业应用方面展现了巨大的潜力。

它们的成功标志着中国AI数字人大模型首次以开源的姿态跻身全球一线视野,也为数字人技术的普及和应用提供了新的可能性。

从技术角度看,HeyGem和DUIX通过”秒级克隆”和”实时交互”等创新功能,大大提高了数字人技术的效率和实用性,使得数字人技术可以被更广泛地应用,为更多场景提供服务。

从开源角度看,HeyGem和DUIX通过开放源代码和模型,降低了数字人技术的使用门槛,鼓励了更多的开发者参与到这一领域的创新和应用中来,为整个行业的发展提供了新的动力。

而从生态角度看,HeyGem和DUIX通过协同发展的模式,构建了一个完整的数字人技术生态,从数字人的创建到交互,从内容生成到应用部署,整个流程都可以通过开源工具完成,为开发者提供了全方位的支持。

未来,随着人工智能技术的不断发展和进步,数字人技术也将迎来更多可能性。HeyGem和DUIX作为开源项目,将继续发挥其开放共享的特点,为全球开发者提供更加先进的工具和平台,共同推动数字人技术的创新和应用,为各行各业带来更多的便利和效率。

官网地址:https://www.duix.com

HeyGem 项目地址:https://github.com/duixcom/Duix.Heygem

DUIX 项目地址:https://github.com/duixcom/Duix.mobile








(文:开源星探)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往