语音识别
GPT-4o级开源模型来了!MiniCPM-o:多语种情感控制的实时对话、仅8B、华人团队
华人团队发布的MiniCPM-o 2.6多模态大模型在视觉和语音方面表现优异,参数量仅8B。其平均得分70.2,在OpenCompass评测中支持1344×1344高分辨率图像处理,并能实时识别双语语音,且支持30多种语言。
Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互
近年来,多模态大语言模型(MLLMs)主要聚焦在视觉和文本模态的融合上,对语音的关注较少。然而,语音
AI数学辅导利器:MathtutorOnGroq,基于Groq构建,支持语音、实时计算、LaTeX渲染。
mathtutor-on-groq是一款基于Groq构建的高效AI数学辅导工具,结合语音识别与强大的数学引擎实时计算和展示公式及解题过程,适用于学习代数、微积分等数学领域。
深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理
图片来源:
latent space
Z highlights
OpenAI
的实时
API
支持低