量子位
通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致
中国电信人工智能研究院发布的新模型TeleAI-VAST,在16项子指标中有9项排名第一,包括物体分类、人体动作等。该模型展示了四位女主角的不同场景下的前后一致性和人物动作精准控制能力,并且实现了声音与画面的同步效果。此外,它采用了独特的两阶段生成架构,使得视频生成更加精确和可控。
DeepMind大模型再登Nature:8分钟预测15日天气,准确度超顶尖物理模型,已开源
DeepMind发布气象预测大模型GenCast,能够在8分钟内完成15天的天气预报,并且其准确率超过全球顶尖的中期天气预报系统。该模型基于扩散模型实现,分辨率为0.25度经度/纬度,已经开源。
马斯克找老黄插队拿显卡:72亿GB200订单,加价也要
马斯克通过提前预购英伟达10.8亿美元GB200芯片,以加速xAI AI模型的研发。GB200性能相当于5倍H100 GPU,可提高训练速度30倍。xAI计划推出新款面向消费者的AI应用与ChatGPT竞争。
谷歌邀马斯克联手做AI游戏!DeepMind版Sora是个3D游戏引擎,一张图生成无限可交互世界
谷歌发布Genie 2世界模型,支持响应键鼠操作、长期记忆及NPC交互,生成3D游戏世界。该技术可用于训练具身智能体,迈向AGI。对比前代,Genie 2在复杂环境生成上取得了进展。
刚刚,谷歌ViT核心骨干集体投奔OpenAI:他们为Sora打下基础
ViT三大核心作者翟晓华、卢卡斯·拜尔和亚历山大·科列斯尼科夫集体离职谷歌DeepMind,加入OpenAI。他们在计算机视觉领域的研究包括ViT及其衍生工作、SigLIP、PaliGamma等。
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了
2014年来自Karpathy与Dzmitry Bahdanau的实习生提出的简化注意力机制在机器翻译项目中诞生,后来被应用于Transformer模型。
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解,动态调整下一步检索策略
阿里通义实验室推出OmniSearch多模态检索智能体,通过动态规划提高检索效率和生成内容准确性。OmniSearch能根据问题情境动态调整检索策略,显著优于传统方法,尤其在需要多步推理、多模态知识和快速变化答案的问题上表现优异。