月度归档: 2025 年 3 月
AAAI2025 北大&数原提出MMGDreamer:混合模态图驱动,几何可控的3D室内场景生成新标杆
合模态图(Mixed-Modality Graph)的双分支扩散模型,用于实现几何精准可控的3D室内
阿里巴巴推出可在手机上处理视频音频的AI模型
阿里巴巴发布Qwen2.5-Omni-7B多模态AI模型,支持文本、图像、音频和视频等多种数据形式,并在手机和平板等终端设备上高效运行,推动AI技术普及。
吉卜力的AI风潮与风波
最近社交媒体上流行起‘万物皆可吉卜力’现象,OpenAI的GPT-4模型使人们可以将照片变成吉卜力动画风格。然而,这一趋势引发了一些法律和伦理问题,包括可能侵犯知识产权及技术与艺术的关系讨论。
被玩疯了! GPT-4o图像生成神图与Bug合辑
OpenAI 推出的 GPT-4o 是一个原生多模态模型,能够直接从文本提示生成精确、逼真的图像。它在准确渲染文本、精确遵循提示以及利用固有知识库和聊天上下文方面表现出色。
抛弃 OpenAI 后,Figure 机器人“进化”:像人一样行走!
Figure 机器人通过强化学习技术实现了人类般自然流畅的行走。这项突破性进展解决了 ‘Sim-to-Real’ 挑战,展示了在复杂环境中自主行走的能力。
开普勒先行者K2化身“物流小哥”,开启“搬砖”日常
张江人形机器人演示周第三天,开普勒先行者K2展示了其在物流仓储场景中的搬运技能。作为一款通用人形机器人,它具有30公斤的负载能力、灵活的手部操作和8小时连续作业时间。该机器人的成功研发体现了行业洞察和技术积累,已经在多个领域应用测试,并有望在未来拓展至家庭服务领域。