小兵的AI视界，作者每时AI

MindOmni：腾讯联合清华等机构推出的多模态大语言模型，推理生成能力卓越

2025年6月29日14时作者小兵的AI视界

腾讯联合清华大学深圳国际研究生院等机构推出的多模态大语言模型MindOmni，在视觉理解、文本到图像生成、推理生成等方面表现卓越。它采用三阶段训练策略和强化学习算法优化了模型的推理生成能力，支持内容创作、教育、娱乐等多个领域应用。

Stream-Omni：多模态交互的“黄金三角”——视觉、语音、文本的完美融合

2025年6月28日14时作者小兵的AI视界

联合推出的类似
GPT-4o
的大型语言
–
视觉
–
语音模型
，
能够同时支持文本、图像和语音等

PaddleOCR 3.0重磅发布！OCR精度跃升13%，多场景文档解析全面升级

2025年6月27日14时作者小兵的AI视界

强大的多语言识别能力、高精度的文本解析能力以及良好的扩展性，迅速在全球范围内获得广泛认可。
2025

MiniCPM 4.0：面壁智能开源的极致高效端侧大模型（小版本、低消耗、220倍极致提速！）

2025年6月26日14时作者小兵的AI视界

MiniCPM 4.0
端侧大模型
，以其极致高效的性能和灵活的部署能力
，为这一问题提供了全新的解

Fluxions-AI开源Vui模型：语音交互的“轻量级”新选择，本地部署超简单

2025年6月25日14时作者小兵的AI视界

Vui 是 Fluxions-AI 团队开源的一款轻量级语音对话模型，基于 LLaMA 架构开发，经过 4 万小时对话训练，支持通用、单人上下文感知及双人互动场景，提供逼真自然的交互体验，适用于多种 AI 应用。

InftyThink：浙大联合北大打造的无限深度推理范式，突破大模型长推理瓶颈

2025年6月24日14时作者小兵的AI视界

浙江大学和北京大学联合推出InftyThink模型，通过分段迭代推理和中间总结突破传统长推理任务限制，显著降低计算复杂度并保持推理准确性和效率。

MonkeyOCR：文档解析新范式，结构-识别-关系三元组如何颠覆传统？

2025年6月23日14时作者小兵的AI视界

文章介绍了一种名为MonkeyOCR的新文档解析模型，采用Structure-Recognition-Relation (SRR)三元组范式分解文档解析任务为结构检测、内容识别和关系预测三个阶段。该模型在多个文档类型上表现出色，支持多语言和多种格式的文档处理，并且提供了高效的部署方案。

大模型终于能预测未来了？伊利诺伊黑科技让AI化身“时间预言家”

2025年6月22日14时作者小兵的AI视界

伊利诺伊大学香槟分校开发的Time-R1模型通过三阶段强化学习训练提升了语言模型的时间推理能力，包括时间戳推断、事件排序和生成合理未来场景等任务。该模型在多个时间推理任务中表现优异，并开源了代码和数据集以促进研究和技术发展。

不用人类教，AI自己组队干活？Salesforce黑科技彻底颠覆智能体协作！

2025年6月21日14时作者小兵的AI视界

MAS-Zero 是 Salesforce 推出的一个创新框架，能够在零监督下自动设计和优化多智能体系统（MAS），显著提高系统对新任务的适应性和性能。

SmolVLA：Hugging Face 开源的轻量级 VLA 模型，体积小 10 倍，性能却达 SOTA！

2025年6月19日14时作者小兵的AI视界

SmolVLA 是 Hugging Face 开源的一个轻量级视觉-语言-行动模型，专为经济高效的机器人设计。它拥有4.5亿参数，能够在消费级GPU甚至CPU上运行，支持在MacBook等设备上部署。通过多模态输入处理、高效推理和异步执行特性，在物体抓取与放置、家务劳动和货物搬运等多种应用场景中表现出色。

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31