谷歌 Gemini 2.5 技术白皮书来了:顶级推理、百万上下文、多模态理解

谷歌发布Gemini 2.5系列模型,包含Pro、Flash和Flash-Lite三个版本。Pro版支持多模态输入、超长上下文处理能力;Flash版优化推理速度与成本效率;Flash-Lite版主打极低延迟和高性价比。Gemini 2.5 Pro采用稀疏激活MoE架构、大规模TPU v5p训练及强化学习控制的思维路径,显著提升性能与效率。测试显示其在编程、数学等领域能力全面提升,并具备多模态任务合成与创作输出的能力。

一周1.2k星!兼具质量与效率的OCR模型MonkeyOCR,支持多样化的中英文PDF

MonkeyOCR采用结构-识别-关系(SRR)范式提升文档解析性能,相比MinerU和端到端模型,在九种文档上的表现均有提升。它支持快速开始安装、推理等步骤,并提供了多种示例文档展示效果。

看好了,这才是7家大模型做高考数学题的真实分数

这篇文章描述了作者利用多个推理模型进行了一场数学高考的模拟测试,并详细介绍了测试规则。最终结果显示,Gemini表现最突出,而DeepSeek和Qwen3则表现较弱。通过这次测试,作者认为对于AI模型来说,数学高考并非特别难,但识别错误会影响结果。文章强调了考试公正性和严谨性的重要性。

3B小模型吊打72B巨头!轻量级文档解析OCR,性能超Gemini,高效且精准!

近日,Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型,它以结构-识别-关系(SRR)三元组范式实现了高效精准的文档解析,在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页,支持中英文文档处理,并能生成Markdown或JSON结构化数据,适用于企业文档处理、学术研究等场景。