字节
每一幕皆可控!字节发布多主体视频生成神器,人人皆主角
字节发布MAGREF,能基于一张参考图像生成保持高度一致的多人视频,即使不同人物也无面部混淆。它支持统一处理多张参考图,并实现人物、物体与背景的协调控制。
生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架
港科大(广州)和字节联合出品的开源框架ComfyMind,能够根据一句描述生成高质量图像或视频。它结合树状规划与局部反馈执行机制,性能超越现有开源方法并接近闭源GPT-4o-Image。
低Token高精度!字节复旦推出自适应推理框架CAR
复旦大学余海洋与字节的研究人员提出CAR自适应推理框架,根据模型困惑度动态选择短回答或长文本推理,在多模态视觉问答和关键信息提取任务中实现最佳平衡。
盘点丨那些 AI 公司悄咪咪上线的产品(十五)
快手、字节和百度近期分别上线了AI图像编辑和虚拟陪玩等新产品。Poify提供换背景、图片风格转换等功能;Pippit则专注于营销场景下的全链路内容制作平台;百度则推出了AI虚拟陪伴产品‘月匣’。
保姆级教程:正确使用「扣子空间」
文章介绍了扣子空间的新功能和使用方法,包括支持更多工具、自主规划任务等特性,并分享了实际应用场景。作为阿里云开发的Agent产品,它能简化任务执行流程,提高工作效率。
字节开源了一个新型多模态生成模型 Liquid
字节开源新型多模态生成模型Liquid,核心创新在于统一编码图像和文本到相同token空间,并使用单一LLM处理视觉理解和生成任务。研究表明,随着模型规模增大,性能下降会消失甚至互相促进。