腾讯低调开源「作业终结者」:3B参数实现多模态SOTA,数学物理全通吃
腾讯开源了一个只有3.78B参数的多模态模型VLR1-3B,对比同级别模型表现优异。它在数学、物理和视觉场景中均表现出色,并能提供推理能力。
大语言模型
腾讯开源了一个只有3.78B参数的多模态模型VLR1-3B,对比同级别模型表现优异。它在数学、物理和视觉场景中均表现出色,并能提供推理能力。
今天是2025年4月25日,星期五,北京晴。文章讨论了多模态模型如何将文档图片转为markdown和docx的逻辑,并介绍了Qwen2VL、internvl、GOT-OCR及docling等模型的具体使用方式。此外,还探讨了金融领域推理模型进展,特别关注DianJin-R1的工作,强调数据质量和强化学习在提升模型性能中的重要性。
Deep Seek是一款基于AI的应用决策系统,通过解析非结构化信息和生成语义标签,为电商选品提供精准的数据支持。它能揭示用户需求并识别市场空白点,从而提高爆品的成功率。
OpenAI 将 ChatGPT 中两个顶级模型 o3 和 o4-mini-high 的使用额度从每周 50 次和每天 50 次提升至每周 100 次和每天 100 次。此外,ChatGPT Plus 用户的 Deep Research 使用额度也有所增加。
通过SRPO方案,快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术,仅用10%的训练步数,在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。
2025年4月24日北京晴。文章探讨了检索增强生成(RAG)与推理(Reasoning)结合的必要性及实现范式,并总结了Agents、RAG产品及大模型安全的相关研究。
Bolt.new 创始人 Eric Simons 在播客中分享了自家产品的背后故事,一个从 Stackblitz 起家、历经转型最终成功的故事。产品通过自然语言生成完整 Web 应用来服务产品经理、设计师和创业者等非技术人群,并积累了独特的底层技术 ‘WebContainer’。团队在短短数月内实现了数千万美金的年收入增长。