每一幕皆可控!字节发布多主体视频生成神器,人人皆主角
字节发布MAGREF,能基于一张参考图像生成保持高度一致的多人视频,即使不同人物也无面部混淆。它支持统一处理多张参考图,并实现人物、物体与背景的协调控制。
字节发布MAGREF,能基于一张参考图像生成保持高度一致的多人视频,即使不同人物也无面部混淆。它支持统一处理多张参考图,并实现人物、物体与背景的协调控制。
港科大(广州)和字节联合出品的开源框架ComfyMind,能够根据一句描述生成高质量图像或视频。它结合树状规划与局部反馈执行机制,性能超越现有开源方法并接近闭源GPT-4o-Image。
复旦大学余海洋与字节的研究人员提出CAR自适应推理框架,根据模型困惑度动态选择短回答或长文本推理,在多模态视觉问答和关键信息提取任务中实现最佳平衡。
快手、字节和百度近期分别上线了AI图像编辑和虚拟陪玩等新产品。Poify提供换背景、图片风格转换等功能;Pippit则专注于营销场景下的全链路内容制作平台;百度则推出了AI虚拟陪伴产品‘月匣’。
文章介绍了扣子空间的新功能和使用方法,包括支持更多工具、自主规划任务等特性,并分享了实际应用场景。作为阿里云开发的Agent产品,它能简化任务执行流程,提高工作效率。
字节开源新型多模态生成模型Liquid,核心创新在于统一编码图像和文本到相同token空间,并使用单一LLM处理视觉理解和生成任务。研究表明,随着模型规模增大,性能下降会消失甚至互相促进。
DeepSeek爆火加速AI应用,大模型开发成热门岗位。知乎知学堂推出实战训练营,提供高薪机会和内推权益。掌握Transformer架构等核心技术,助力职业发展。