年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)迎来了重大更新,发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 能够分析复杂的影视名场面,并对真人和动画、横屏和竖屏、多场景和多镜头的视频进行描述,其性能超越了 GPT-4o 和 Gemini-1.5-Pro 等闭源模型,在多个公开基准上表现出色。
MLNLP社区举办学术Talk活动,特邀北京交通大学陶仁帅分享高质量学术论文Rebuttal撰写体会,涵盖技巧、策略和常见误区,帮助学生提高投稿成功率。
Meta员工在TeamBlind上爆料,DeepSeek公司训练成本仅550万美元就推出了性能堪比OpenAI的AI模型。这令Meta高管们感到尴尬和紧张,Meta工程师也正在争分夺秒地分析DeepSeek的技术细节。
本文介绍了一篇关于Reconstructive Visual Instruction Tuning (Ross)的工作,该方法通过引入视觉监督来提升多模态大模型的细粒度理解能力,并显著减少幻觉现象。该方法已成功应用于多个基准测试中,与现有技术相比表现出色。