音频归档 - 每时AI

开源即爆的一款隐形AI桌面助手：glass

2025年7月7日16时作者 NLP工程化

开源AI桌面助手glass能捕捉屏幕活动和音频，理解上下文并生成会议记录、摘要，提供实时解答（https://github.com/pickle-com/glass）。

2025年6月18日11时作者机器之心

Google发布了Gemini 2.5系列的新版本，包括稳定版和预览版。其中Gemini 2.5 Flash-Lite是性价比最高的模型之一，适用于需要快速处理大量任务的应用场景。

2025年6月16日19时作者 AI新榜

“货物比他的头还要庞大个上百倍”
“小蛋白却也从来不会叫苦叫累”
驱动蛋白的知识摇身一变，变成了押

2025年2月5日14时作者小兵的AI视界

在当今数字化时代，音频语言模型的需求日益增长，
尤其是在边缘设备上实现高效、准确的音频处理更是备受关

2025年1月14日8时作者 NLP工程化

整理和提供了用于构建通用语音、音频和音乐基础模型的数据集列表及其元数据和获取途径，来自sarulab-speech/audio-foundation-model-dataset GitHub。

2024年12月22日12时作者 GitHubStore

Megrez-3B-Omni是无问芯穹研发的端侧全模态理解模型，基于Megrez-3B-Instruct扩展，在图像、语音和文本领域均取得最优精度。