学术
世界首个「实时、无限」扩散视频生成模型,Karpathy投资站台
Decart 发布了世界上首个实时的、无时长限制且支持任意视频流的扩散视频模型 MirageLSD,能够在40毫秒延迟内将任何输入转化为目标世界。该技术突破为AI视频生成领域带来革命性变化,如实时电影制作、游戏开发、风格迁移等新应用。
中国队重夺IMO奥数冠军,6金双满分碾压全场,AI连铜牌都拿不到
中国队在第66届国际数学奥林匹克竞赛中夺冠,总分231分全满分,创历史新高。多名选手连续两届入选国家队。IMO由全球数十个国家参与的年度赛事,旨在测试参赛者的数学知识和解题能力。
TPAMI 2025|首个统一图像与视频的领域自适应语义分割框架:QuadMix 刷新多项基准性能
语义分割框架 QuadMix,通过四向混合机制和光流引导的时空聚合,在四大基准上全面刷新 SOTA,
演讲生成黑科技,PresentAgent从文本到演讲视频
本项目提出 PresentAgent 系统,能够将长篇文档转化为带解说的演示视频。PresentAgent 通过模块化流程实现视觉和语音同步生成,并引入 PresentEval 评估框架全面考量内容、视觉与理解质量。
庞若鸣交班陈智峰,苹果发布2025基础模型技术报告
苹果发布2025年Apple Intelligence基模型技术报告,介绍了两种多语言、多模态基础模型,并展示了其在提升用户价值的同时实现功能扩展与质量优化方面的成果。