一篇80页多模态RAG技术最新综述:MRAG3.0 下午7时 2025/04/16 作者 PaperAgent 多模态检索增强型生成(MRAG)通过整合文本、图像和视频等多模态数据显著提升了大型语言模型的生成质量,并系统回顾了其进展与关键技术组件。
Meta 发布 Llama 4 系列 AI 模型了 上午11时 2025/04/06 作者 陳寳 Meta发布Llama 4系列AI模型,引入混合专家架构以提升效率和性能,并尝试在生成式AI领域实现差异化突破。
MoshiVis:让语音模型“看懂”图像,开启视觉对话新时代 上午8时 2025/03/27 作者 NLP工程化 MoshiVis利用7B参数的Moshi模型新增适配器参数支持讨论图像,兼容PyTorch、Rust和MLX三种后端,具备实时视觉对话能力。