太酷了!直接跟虚拟人物对话!AI 虚拟助手Persona Engine (人格引擎)!


大家好,我是每日给大家推荐优秀开源项目的小G!


今天,我要给大家介绍一个能够让你的数字角色焕发新生的神奇工具——Persona Engine。想象一下,你的角色不仅拥有生动的表情和实时动画,还能通过AI驱动的声音、个性和对话与你互动。这不仅仅是一个项目,这是将你的创意变为现实的魔法!

它结合了大语言模型,Live2D,自动语音识别,文本转语音,实时语音克隆。达到了直接跟虚拟人物对话的能力。当然可以直接集成到 OBS 里面做AI虚拟主播



项目简介

Persona Engine是一个全能工具包,它巧妙地结合了Live2D、大型语言模型(LLMs)、自动语音识别(ASR)、文本到语音(TTS)以及可选的实时语音克隆(RVC),为VTubing、动态流媒体和创新的虚拟助手应用提供了完美的解决方案。如下图所示:



看看它作为桌面伙伴有多有用!😊



下面仔细数一数到底有哪些特色功能


好的,没问题!作为你的资深编辑小助手,我已经仔细研究了这个项目,并为你精心准备了一篇微信公众号文章。力求信息准确、风格活泼、引人入胜!


文章标题:【开源爆款】告别千篇一律的AI!快来给你的大模型注入“灵魂”吧!✨

(文章顶部可以放一张代表“个性化AI”或“代码与创意结合”的吸睛图片)

小G大家好,我是每日给大家推荐优秀开源项目的小G!👋

是不是感觉现在的大语言模型(LLM)有时候聪明得惊人,但聊久了又觉得…嗯…有点“呆板”?好像跟谁聊天都一个味儿?🤔 咱们开发者和创作者,总想搞点不一样的,想要 AI 不仅能干活,还得有“个性”,对吧?

想象一下,你能轻松“捏”出一个专属的 AI 角色:一个严谨的法律顾问、一个幽默风趣的段子手、甚至是一个充满奇思妙想的艺术家助手?

别说,今天推荐的这个项目 —— Handcrafted Persona Engine,就是来实现这个梦想的!它让你告别那些“没有感情”的通用回复,真正为你的 AI 注入独一无二的“灵魂”!这项目简直是为追求个性化 AI 体验的我们量身定做的,必须往下看!👇


✨ 项目主角登场:Handcrafted Persona Engine ✨

简单来说,Handcrafted Persona Engine (我们叫它“手工定制化 Persona 引擎”吧!) 是一个非常酷的框架。它的核心使命就是帮助开发者创建、管理和运用具有特定个性特征、知识背景和互动风格的大语言模型(LLM)角色(Persona)

它能做什么?

  • 🎭 Live2D 头像集成:

    • 加载并渲染 Live2D 模型( .model3.json )。
    • 包含特别定制的 “Aria” 模型。
    • 支持情绪驱动的动画( [EMOTION:name] )和 VBridger 标准唇形同步参数。
    • 专为情感、闲置和眨眼动画提供专用服务。
    • 查看详细的 Live2D 集成与绑定指南,了解自定义模型要求!

  • 🧠 AI 驱动对话:

    • 连接到兼容 OpenAI 的大语言模型( LLM )API(本地或云端)。
    • 指导您使用自定义的 personality.txt 文件。
    • 具有改进的对话上下文和会话管理,以实现更稳健的交互。
    • 优化可选的特殊微调模型(见概述)。
  • 🗣️ 语音交互(需要 NVIDIA GPU ):

    • 通过麦克风监听(使用 NAudio / PortAudio )。
    • 使用 Silero VAD 检测语音片段。
    • 使用 Whisper ASR 理解语音(通过 Whisper.NET )。
    • 包含专门的“打断检测”功能,以更优雅地处理用户中断。
    • 使用小型快速 Whisper 模型进行中断检测,以及更大、更精确的模型进行转录。
  • 🔊 高级文本到语音( TTS )(需要 NVIDIA GPU ):

    • 复杂的管道:文本规范化 -> 句子分割 -> 音素化 -> ONNX 合成。
    • 使用自定义 kokoro 语音模型让文本栩栩如生。
    • 使用 espeak-ng 作为未知单词/符号的备用。
  • 👤可选实时语音克隆( RVC )(需要 NVIDIA GPU ):

    • 集成 RVC ONNX 模型。
    • 实时修改 TTS 语音输出,使其听起来像特定的目标声音。
    • 可禁用以提高性能。
  • 📜 可定制字幕:

    • 显示语音文本,可通过 UI 配置样式选项。

  • 💬 控制 UI 及聊天观众:

    • 专用 UI 窗口用于监控引擎状态。
    • 查看延迟指标(LLM,TTS,音频)
    • 实时调整 TTS 参数(音调、速率)和轮盘赌设置。
    • 查看和编辑对话历史。
  • 👀 屏幕感知(实验性):

    • 可选的视觉模块使 AI 能够“看到”并从指定的应用程序窗口中读取文本。
  • 🎡互动轮盘(实验性):

    • 一个可选的、可配置的屏幕轮盘赌,用于互动娱乐。
  • 📺 流媒体输出( Spout )

    • 将视觉(头像、字幕、轮盘)直接发送到 OBS Studio 或其他 Spout 兼容软件。
    • 使用独立的、可配置的 Spout 流(无需窗口捕获!)。
  •  🎶音频输出:

    • 通过 PortAudio 清晰播放生成的语音。
  • ⚙️ 配置:

    • 主要设置通过 appsettings.json (详情请见安装指南)。
    • 通过控制 UI 实时调整一些设置。
  •  🤬 脱口秀过滤:

    • 基本关键词列表 + 可选基于机器学习( ML )的 LLM 响应过滤。


如何安装使用


安装和使用Persona Engine非常简单。


目前主要支持Windows 10/11 或 Linux(推荐Ubuntu)这两个系统

在安装主程序之前,你需要先装好 .NET Runtime和GPU套餐系列!因为核心功能(语音识别、语音合成、视频编码)需要配备支持 CUDA 的 NVIDIA GPU。

同时需要下载Whisper ASR 模型、LLM模型和espeak-ng

请按照详细的安装和设置指南进行操作(https://github.com/fagenorn/handcrafted-persona-engine/blob/main/INSTALLATION.md),这将帮助你安装必要的先决条件、下载模型、配置并运行引擎。项目提供了详尽的指导,确保即使是新手也能轻松上手。



项目链接

https://github.com/fagenorn/handcrafted-persona-engine

扫码加入技术交流群,备注「开发语言-城市-昵称

(文:GitHubStore)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往