8秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布

字节跳动与北京大学提出统一图像定制化生成框架DreamO,支持多条件组合的多样化定制,包括主体、身份、风格及服装参考。该模型通过单一模型实现了多种高质量图像定制化结果,且在成本和速度上具有优势。

开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题

ModelScope团队提出Nexus-Gen统一模型,融合MLMs和扩散模型能力,实现图像生成、理解与编辑。其技术细节包括预填充自回归策略和统一的数据格式定义。模型已在多个任务上取得GPT-4o级效果,并开源了训练数据、工程框架及论文。

多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化

阶跃星辰表示将继续坚持基础大模型研发,并强调多模态理解生成一体化的重要性。公司已发布22款基座模型,其中16款为多模态模型。姜大昕解释称,多模态理解生成一体化意味着用一个模型同时完成理解和生成任务,而非三段式过程。他认为这需要更强的综合实力,目前在语言和视觉领域的理解生成一体化研究进展正积极推进。

机器人开始抢“主持人”饭碗!上海张江,傅利叶宣布下个十年规划,要做“以人为本的具身智能”

上海张江的傅利叶机器人宣布未来十年将聚焦康养场景,推出具备温度交互、生动理解与主动执行能力的人形机器人,并发布小尺寸人形机器人Fourier N1。公司已进驻全球3000多家终端医院,提供包括康复治疗和人体运动量化研究在内的多种服务。