OpenAI官方开源!能让用户在20分钟内做出一个实时语音Agent应用。

OpenAI 的 Realtime API 确实是太强。

 

低延迟、多模态的体验让很多开发者想快速用起来。

 

毕竟25年是AI应用爆发的一年。

 

那想有更多更好用的AI功能,基础就是把这些API玩明白。

 

OpenAI官方开源了一个项目,能让用户在20分钟内做出一个实时语音Agent应用。

 

项目简介

 

Realtime API Agents 是基于 Realtime API 构建的高级智能模式演示项目。它展示了按定义的代理图进行的顺序代理交接、向更智能模型的后台升级,以及引导模型遵循状态机等特性。这是个 Next.js TypeScript 应用,安装依赖、添加 API 密钥,启动服务器就能运行。通过配置不同的代理,可在 20 分钟内快速搭建多代理实时语音应用原型。

 

DEMO

 

中英互译的帮大家整理好了。

 

  • 11:04:17 AM greeter – 上午 11:04:17,问候代理
  • Hello! Would you like a Haiku today? – 你好!今天你想要一首俳句吗?
  • yes please – 好的,麻烦了
  • 11:04:21 AM function call: transferAgents – 上午 11:04:21,函数调用:转移代理
  • function call: transferAgents response – 函数调用:转移代理响应
  • 11:04:21 AM haiku – 上午 11:04:21,俳句代理
  • Hello! Please give me a topic, and I’ll create a Haiku for you. – 你好!请给我一个主题,我会为你创作一首俳句。
  • 11:04:27 AM AGI – 上午 11:04:27,AGI(用户输入的主题)
  • Future mind ascends, Artificial pathways grow, Human dreams entwined. – 未来心智攀升,人工路径延展,人类梦想交织。

 

主要内容

 

  • 顺序智能体交接:根据定义的智能体图进行顺序智能体交接,灵感来源于 OpenAI Swarm。例如,在智能体交互过程中,一个智能体可以根据特定条件将用户请求转交给另一个智能体处理。

     

  • 后台升级决策:对于高风险决策,会后台升级到更智能的模型,如 o1-mini。这有助于在关键决策场景下提供更准确和可靠的结果。

     

  • 遵循状态机提示:提示模型遵循状态机,例如逐字符确认的方式准确收集用户的姓名和电话号码,以此来验证用户身份。

 

UI界面功能

 

  • 智能体场景选择:用户可以在 “Scenario” 下拉菜单中选择不同的智能体场景,并通过 “Agent” 下拉菜单自动切换到特定的智能体。

     

  • 对话记录和事件日志:对话记录显示在左侧,包括工具调用、工具调用响应和智能体更改等信息;事件日志显示在右侧,展示客户端和服务器事件,点击可查看完整的有效负载。

     

  • 控制功能:在底部,用户可以进行断开连接、切换语音活动检测模式或按键通话(PTT)、关闭音频播放以及切换日志显示等操作。

 

项目链接

 

https://github.com/openai/openai-realtime-agents

 

 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

《OpenAI官方开源!能让用户在20分钟内做出一个实时语音Agent应用。》有1条评论

  1. OpenAI的Realtime API果然是强到离谱!低延迟、多模态体验让开发者们根本停不下手。25年就是AI爆发的一年,谁还没想个更好的AI功能呢?

    回复

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往