字节归档 - 每时AI

每一幕皆可控！字节发布多主体视频生成神器，人人皆主角

2025年6月13日23时作者量子位

字节发布MAGREF，能基于一张参考图像生成保持高度一致的多人视频，即使不同人物也无面部混淆。它支持统一处理多张参考图，并实现人物、物体与背景的协调控制。

2025年6月7日16时作者量子位

港科大（广州）和字节联合出品的开源框架ComfyMind，能够根据一句描述生成高质量图像或视频。它结合树状规划与局部反馈执行机制，性能超越现有开源方法并接近闭源GPT-4o-Image。

2025年5月27日16时作者量子位

复旦大学余海洋与字节的研究人员提出CAR自适应推理框架，根据模型困惑度动态选择短回答或长文本推理，在多模态视觉问答和关键信息提取任务中实现最佳平衡。

2025年4月21日23时作者 Founder Park

。与其他类似产品如 manus 一样，扣子空间采用了邀请码制。
平台上，用户可以选择精通各项技能的「

2025年4月17日23时作者 APPSO

昨天，OpenAI 放出了自家最强推理模型
o3 和 o4 mini
，但这可能还不是这个月最重磅的

2025年4月17日8时作者 NLP工程化

字节开源新型多模态生成模型Liquid，核心创新在于统一编码图像和文本到相同token空间，并使用单一LLM处理视觉理解和生成任务。研究表明，随着模型规模增大，性能下降会消失甚至互相促进。