机器之心
CVPR 2025 EmoEdit:情感可编辑?深大VCC带你见证魔法!
EmoEdit 通过图像编辑技术实现了情感表达的效果。论文提出了EmoEdit框架,利用大规模AIM数据集和情感增强模块提升扩散模型的情感感知能力,最终在多维度实验中展示了其显著的情感编辑效果。
强推理模型下,Agent workflow 仍有必要吗?
本周解读了两则关于AI及机器人领域的业内重要事件。一是探讨强推理模型下,Agent workflow是否仍有必要;二是分析从‘拼能力’到‘拼盈利’的视频生成赛道格局变化。
GPT-4o图像生成的秘密,OpenAI 没说,网友已经拼出真相?
GPT-4o 图像生成引起了广泛兴趣和猜测,OpenAI仅发布系统卡附录详细评估、安全和治理。网络上流传多种猜想及逆向工程猜测其可能采用自回归+扩散或非扩散的自回归生成方式。
植入Neuralink脑机接口一年后,瘫痪的他找到了工作,还将重返校园
瘫痪患者Noland Arbaugh通过Neuralink脑机接口重返校园并找到工作,他表示这改变了他的人生,并且未来可能实现通过大脑信号生成视觉和人与人通信的能力。
CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰
三维高斯泼溅技术在几何和纹理边界处存在模糊问题,研究提出BG-Triangle方法结合Bézier三角形的矢量图形特性与高斯概率模型,通过引入不连续感知渲染技术降低物体边界的不确定性,实现更锐利的渲染效果。
Adobe黑科技:视频扩散降维图像编辑,ObjectMover秒懂物理规律
论文提出的新模型ObjectMover结合视频扩散模型和虚幻引擎合成数据,实现了图像中物体的真实感移动。它不仅能处理物体的插入、删除和移动任务,还能有效保持物体的身份特征及光照效果。
被吉卜力刷屏的背后:OpenAI模型行为负责人揭秘GPT-4o新生成策略
OpenAI 放宽了 GPT-4o 图像生成的限制,允许更广泛的内容创作。Joanne Jang 解释称,这是为了减少现实世界的伤害风险,并强调保持谦逊和关注新的可能性。