多模态模型归档 - 第4页共8页

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

2025年5月5日16时作者新智元

系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。
最近，推理语言

2个月拿下4大赛道头部玩家，阶跃抢先交出Agent战场最硬核答卷

2025年4月27日23时作者智东西

漠影
今天，“智能体（Agent）”已经成为全球科技圈的当红炸子鸡。
从智能手机、汽车、IoT到具身

DeepMind首席科学家David Silver:AI的未来，先要放弃人类知识数据（访谈实录）

2025年4月23日14时作者 AI先锋官

he Era of Experience》，提出人工智能的发展正从“人类数据时代”（Era of H

大模型数据预处理——关于复杂文档在大模型应用中的解决方案

2025年4月19日14时作者 AI探索时代

复杂文档处理是AI的基础但门槛高。常见文本类文档如Word/PDF格式复杂难处理，影响RAG应用效果。为提高效率，可将多种文档统一转为HTML或Markdown格式，并进行进一步处理。

刚刚，o4-mini发布！OpenAI史上最强、最智能模型

2025年4月17日8时作者 AIGC开放社区

今天凌晨
1点，
OpenAI发布了最强、最智能模型o4-mini和满血版o3。
o4-mini在AIME2024和2025中分别达到了93.4%和92.7%，比满血版o3还强。同时具备多模态处理能力，可以调用工具辅助推理。

Rule-based强化学习≠古早逻辑规则！万字拆解o1多模态推理最新进展

2025年4月7日16时作者 PaperWeekly

s）和多模态大语言模型（MLLMs）中。
最近，DeepSeek R1 的提出引发了对强化学习（RL

家居机器人必备！SpatialLM开源模型教你4步生成家庭3D数字孪生

2025年3月31日14时作者小兵的AI视界

SpatialLM是群核科技开源的一款空间理解多模态模型，能够从普通手机拍摄的视频中重建精细3D场景，并标注房间结构、家具摆放和通道宽度等信息。其核心功能包括生成3D场景、提升机器人的空间认知能力、降低数据采集成本以及在虚拟现实中提供丰富场景支持。

阿里巴巴开源的全模态大模型Qwen2.5-Omni，字节跳动开发的节点式工作流引擎，自动化注册Cursor Pro

2025年3月27日11时作者每日AI新工具

阿里巴巴开源的Qwen2.5-Omni大模型支持全模态感知与生成、实时交互和语音生成。Cursor Auto Register帮助用户自动化注册Cursor账号。字节跳动开发的FlowGram.AI是节点式工作流引擎，利用AI能力增强工作流程。n8n MCP Server是一个让AI助手通过自然语言控制n8n工作流的模型上下文协议服务器。LangGraph CUA库构建具有计算机操作能力的智能代理系统。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31