年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。
这是2000块卡就训练出来的?DeepSeek R1模型发布一周后迅速走红,引起华尔街顶级风投Andreesen的点赞和多方讨论。
OpenAI发布首个智能体Operator后,Every CEO和联创Dan进行了实测,仅成功完成2项任务。结论包括浏览限制、任务范围有限及提示的重要性。Operator在购票、房屋清洁等具体任务上表现出色,但在复杂分析或需要深入了解的任务中表现不佳。
Meta计划在2025年继续扩大AI投资,初步规划包括建设2GW规模数据中心和扩张AI团队。内部也出现人事调整,Llama 4已落后于新崛起的DeepSeek模型导致Meta陷入恐慌。
本文回顾了大型语言模型在推理能力方面的最新进展,从SFT到RLHF,再到ORM和PRM等技术的演变,讨论了测试时扩展的重要性,并介绍了各种增强LLMs推理能力的技术方法。
近日研究团队使用GenProp模型回答了Text-to-Video模型潜力的问题。GenProp展示了强大的传播能力,包括物体移除、背景替换等任务,并且优于传统方法。论文提出了通用框架和数据制造技术,展现了模型在多种视觉编辑中的应用前景。