多模态大模型归档 - 第7页共10页

为什么“多模态卷王”阶跃星辰积极拥抱开源？｜

2025年2月19日16时作者甲子光年

形成一股洪流。
过去短短一个月的时间里，海内外至少有三家业内领先的大模型公司宣布了开源计划，按照时间

2025年2月18日12时作者财联社AI daily

阶跃星辰与吉利汽车联合宣布向全球开源两款Step系列多模态大模型，包括300亿参数视频生成模型和首款语音交互开源模型。

2025年2月17日12时作者量子位

中国研究员联合DeepMind团队提出的新研究《Lavender: Diffusion Instruction Tuning》，通过“注意力对齐”让Stable Diffusion教Llama-3.2等模型“看图说话”，性能提升30%，且代码、模型、训练数据将全部开源。

2025年2月14日12时作者新智元

0度无限3D场景，实时互动自由探索。这不仅是技术的革新，更预示着，游戏电影等领域即将迎来颠覆性的变革

2025年2月12日23时作者极市干货

径比较清晰，意在初步梳理DeepSeek技术的演进及进化之路，主要包括三大方向：大语言模型、视觉语言

2025年2月7日16时作者 PaperWeekly

多模态大模型是实现AGI的必经之路。通过模拟人类的多模态感知能力，多模态大语言模型（MLLM）引领变革，并成功展示了实时交互的VITA-1.5模型。

2025年2月6日8时作者 NLP工程化

DeepSeek发布多模态大模型Janus-Pro，实现多模态理解与生成的统一，性能提升显著。

2025年1月28日12时作者新智元

北大团队提出VARGPT模型，通过单一自回归框架实现视觉理解与生成。其创新设计包括引入视觉解码器、多尺度图像分词器和特征投影器，并采用三阶段训练策略优化性能。

2025年1月25日12时作者硅星人Pro

文章介绍了智谱研发的智能体AutoGLM和GLM-PC，它们能够通过简单的文字/语音指令模拟人类操作手机、电脑等设备，并展示在不同场景下的应用效果。GLM-PC支持移动端和PC端联动，可远程控制电脑完成多任务处理，甚至参与抢票和购买年货等活动。