多模态任务归档 - 每时AI

百度文心大模型4.5系列正式开源，同步开放API服务

2025年6月30日16时作者量子位

百度发布文心大模型4.5系列正式开源，涵盖多种参数和任务需求的10款模型，并提供API服务与Apache 2.0协议支持。

探索多模态后训练最优解：MiMo-VL稳健优化 v.s. Seed-VL激进革命

2025年6月24日23时作者 PaperWeekly

下，
MiMo-VL
与
Seed-VL
两大系统在后训练链条上的策略博弈，展现了当前业界对指令对齐

月之暗面 Kimi-VL：集多模态、高智商、强推理于一身的开源大模型

2025年5月20日14时作者小兵的AI视界

的一款轻量级多模态视觉语言模型，凭借其独特的架构设计和高效的训练方法，在多模态任务中展现出强大的性能

刚刚！北大校友Lilian Weng最新博客来了：Why We Think

2025年5月18日16时作者机器之心

最近，北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长

让奥特曼直呼“天才”的o3 和 o4-mini，被曝捏造事实问题严重！拓展强化学习、图像思维链等亮点成陪衬？

2025年4月17日11时作者 AI前线

之前思考更长时间而训练。
这些推理模型首次实现了自主调用并整合 ChatGPT 内的全量工具：包括网

Qwen2.5-VL-32B-Instruct开源

2025年3月26日8时作者 NLP工程化

Qwen2.5-VL-32B-Instruct 在多模态任务中表现出色，并在 MM-MT-Bench 基准测试中相比前代模型取得显著进步。

R1-Think能力如何用于RAG及多模态场景？Rank1及R1-Onevision实现思路解析

2025年2月28日14时作者老刘说NLP

今天继续看RAG进展，看推理模型用于RAG的两个思路。
另一个看看将R1推理路径用于多模态模型的一个

DeepSeek-R1：强化学习驱动的AI推理模型，性能媲美OpenAI o1

2025年1月31日14时作者小兵的AI视界

2025
年
1
月
20
日，深度求索公司正式发布了其最新的人工智能推理模型
DeepSeek-R