字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA
字节推出视觉-语言多模态大模型Seed1.5-VL,具备更强的通用多模态理解和推理能力,在视频理解、视觉推理等方面表现突出。
字节推出视觉-语言多模态大模型Seed1.5-VL,具备更强的通用多模态理解和推理能力,在视频理解、视觉推理等方面表现突出。
阿里的MNN移动端多模态大模型APP更新支持Qwen-2.5-omni-3b和7b,可以实现文本到文本、图像到文本等多种生成任务,提供速度优化的开发参考。
阶跃星辰表示将继续坚持基础大模型研发,并强调多模态理解生成一体化的重要性。公司已发布22款基座模型,其中16款为多模态模型。姜大昕解释称,多模态理解生成一体化意味着用一个模型同时完成理解和生成任务,而非三段式过程。他认为这需要更强的综合实力,目前在语言和视觉领域的理解生成一体化研究进展正积极推进。
AI 大模型领域竞争激烈,阶跃星辰专注于多模态模型研发。创始人姜大昕认为 AGI 追求智能上限是当务之急,并描绘了模型三步曲演进路线。
阶跃星辰创始人姜大昕详解多模态模型在AGI实现中的重要性及技术路径。他指出多模态是实现AGI的必经之路,并强调了多模态理解生成一体化的关键作用。目前多模态模型仍处于探索期,尚未出现像语言模型界的Transformer一样的可拓展架构。姜大昕还介绍了阶跃星辰在智能终端Agent、机器人等领域的应用策略及对未来技术演进路线的看法。
AI 编程产品分为Cursor、Windsurf等IDE类产品和Vibe Coding类产品。Figma推出的新产品Figma Make支持导入Figma设计稿,并且能够直接修改设计稿中的元素,展示插画图片素材,具备接入地图API等功能。
谷歌在I/O开发者大会上发布了新版Gemini 2.5 Pro Preview,该模型已在网页版、App端和开发者平台全面上线,并提供免费的25次每日使用额度。它被认为目前是地表最强且免费的多模态模型,尤其擅长编程任务。此外,新版还支持100万 tokens 上下文,具备强大的推理能力和前端UI优化能力。