多模态
深度解析谷歌MedGemma:开源,将如何重塑医疗AI的未来?
谷歌发布的MedGemma系列开源AI模型,支持文本与图像输入,适用于医疗任务。其性能与成本均优于同类闭源模型,强调数据隐私控制、定制性和长期稳定性等优势。
ICML 2025 Spotlight 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
的数字人与机器人需要精准解译多模态交互信息,深度挖掘人类内在情感状态,从而实现更具真实感与自然性的人
多模态推理新思路:D2I框架如何让模型“深思熟虑”又“直觉敏锐”?
本文介绍了一种名为 Deliberate-to-Intuitive (D2I) 的推理框架,旨在提升多模态大型语言模型(MLLMs)在复杂推理任务中的表现。通过在训练阶段采用深度推理策略,并在测试阶段允许模型自由生成答案,显著提升了多模态模型的推理能力,同时保持了训练的高效性和可扩展性。
技术总结之RAG用于文档信息抽取及多模态大模型两阶段训练范式
2025年7月9日,北京晴天。文章总结了SIGIR 2025 LiveRAG竞赛的评测报告,并介绍了信息抽取和多模态大模型训练的相关方案。强调在轮子同质化背景下,业务know-how的重要性,指出文档解析、RAG及大模型应用出现同质化严重现象。同时提到了两个大模型训练指引资源。