字节悄悄开源了一个全新AI视频生成工具!主打多主体一致性参考生成!
字节开源的Phantom视频生成工具支持多种主体类型,如人物、物品和虚拟角色,并能保持高度一致性。它适用于广告、影视制作及游戏动画等场景。
字节开源的Phantom视频生成工具支持多种主体类型,如人物、物品和虚拟角色,并能保持高度一致性。它适用于广告、影视制作及游戏动画等场景。
国产大模型一周动态回顾,包括新发布的UI-TARS GUI Agent模型,这是一个集成了视觉语言模型的原生GUI代理系统,旨在实现端到端任务自动化。
字节豆包大模型团队成立AGI长期研究团队Seed Edge,鼓励跨模态合作探索新方法,目标是挑战颠覆性的AGI课题。研究方向包括推理、感知、模型设计及学习范式等。团队获得独立算力资源保障,并已发布1.5Pro版本。
字节发布UI-TARS视觉语言模型,能像人一样操控电脑界面,并在多项测试中击败GPT-4等对手。它具备感知、推理及行动能力,支持点击、输入等多种操作。UI-TARS通过SFT和DPO训练,在多个GUI代理基准测试中达到最佳成绩,还开源了桌面版应用。
一年里,字节在 AI 编程领域取得显著进展,其中 Trae 是一款智能协作 Native IDE,其功能包括用户管理和模型调用量管理等,旨在成为一站式大模型管理平台。