多模态大模型归档 - 第6页共10页

诚邀参加青岛AICC”用昇腾玩转DeepSeek、Qwen开发实战”集训营活动

2025年3月21日23时作者极市干货

多模态大模型深入解读专栏介绍，涵盖Transformer系列、LVM模型及扩散模型等内容。

2025年3月17日23时作者极市干货

zhihu.com/p/29826500937
编辑丨极市平台
极市导读
本文提出了一种新的机器人操

2025年3月14日8时作者开源星探

Google开源Gemini 2.0多模态生图功能，用户只需一句话即可对图片进行修改或创作，如换发色、闭眼、改变对象身份等，展示了生成式AI在图像编辑领域的巨大进步。

2025年3月13日23时作者财联社AI daily

3月10日，《做多中国行》上市公司行走进上海徐汇的阶跃星辰/财跃星辰。活动吸引超过30名投资者参与，双方介绍大模型应用及生态合作。阶跃星辰发布11款多模态大模型，涵盖语音识别、图像生成等，包括全球参数量最大的开源视频生成模型和业内首款产品级开源语音交互模型。

2025年3月13日12时作者硅星人Pro

原字节跳动AI大将骆怡航加入生数科技担任CEO，全面负责公司研发、产品、商业化及团队管理工作。唐家渝仍保留总裁一职，专注于战略发展和品牌等核心职能。

2025年3月5日8时作者 NLP工程化

微软开源的多模态大模型Phi 4 Multimodal，在OpenASR排行榜上排名第一，性能卓越；支持音频、视觉和文本处理。亮点包括使用LoRAs混合技术添加模态适配器等。参数量达38亿的Phi-4-Mini版本已发布。

2025年2月20日16时作者 Z Potentials

机器人初创公司 Field AI 正在与投资者洽谈，以 20 亿美元的估值筹集资金。该公司已开始通过销售专业模型产生数百万美元的收入，这些模型指导其他供应商的机器人执行各种任务。

2025年2月19日16时作者 AI前线

吉利汽车集团与阶跃星辰联合宣布，将Step系列多模态大模型向全球开发者开源。包括参数量最大的视频生成模型和首款语音交互大模型。阶跃Step-Video-T2V可直接生成高质量视频，而阶跃Step-Audio是业内首个产品级的开源语音交互模型。