年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。
news
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。
近日研究团队使用GenProp模型回答了Text-to-Video模型潜力的问题。GenProp展示了强大的传播能力,包括物体移除、背景替换等任务,并且优于传统方法。论文提出了通用框架和数据制造技术,展现了模型在多种视觉编辑中的应用前景。
Meta计划在2025年扩大AI投资,预计投入600-650亿美元。内部已出现恐慌情绪,部分员工担心DeepSeek的竞争压力。Meta表示今年是决定性的一年,目标拥有130万块GPU和1GW在线运算能力。
新智元报道
编辑:KingHZ
AI模型在「人类最后一次考试」中的准确率低于10%,表现自信过度。该项目包含3000个问题,覆盖100多个学科领域。