今年最火 AI 视频 Veo 3 大更新!上传一张图,家里的猫和鲁迅就能开口「吐槽」 附实测
VeO3 最新更新支持图片生成开口说话的视频,包括声音和动作。用户能上传一张静态图片加上文字脚本,就能生成带有语音同步的视频。Gemini 平台提供了多种选项如首帧转视频、使用 Gemini 和 Flow 生成连贯短片等。
VeO3 最新更新支持图片生成开口说话的视频,包括声音和动作。用户能上传一张静态图片加上文字脚本,就能生成带有语音同步的视频。Gemini 平台提供了多种选项如首帧转视频、使用 Gemini 和 Flow 生成连贯短片等。
Google发布了Gemini 2.5系列的新版本,包括稳定版和预览版。其中Gemini 2.5 Flash-Lite是性价比最高的模型之一,适用于需要快速处理大量任务的应用场景。
苹果研究员通过一系列全新智力测试题,揭示了多种「推理」模型在高复杂度问题上的无效性。研究发现这些模型实际上是高级版的记忆大师,并且在训练时无法理解实际情况中的问题。Google CEO Sundar Pichai提出AJI(Artificial Jagged Intelligence)概念,描述当前AI处于「惊艳与弱智并存」的状态。Pichai预测到2030年将看到巨大进步,但强调重要的是利用现有能力带来积极影响。
谷歌 Gemini 2.5 Pro 模型迎来重大更新,性能超越 Claude 4,代码能力显著提升,并重新登上 LMArena AI 市场排行榜榜首。
HyperAI超神经上线教程板块,提供一键部署MedGemma-27b-text-it医学推理大模型教程。该模型支持医疗文本理解与临床推理任务,如病人问诊、分诊等。HyperAI还为新用户准备了注册邀请码福利。
本周解读机器之心PRO会员通讯第19期,涵盖2项专题解析及29项AI&Robotics要事速递。重点讨论了Native多模态模型的训练过程差异以及早融合晚融合的优劣。
Google CEO Sundar Pichai 推出了NotebookLM新功能:Audio Overviews (音频概述),支持50多种语言,包括中文。NotebookLM能将上传的资料生成引人入胜的“深度探讨”音频总结,支持多种格式文件。
谷歌发布DolphinGemma大模型,基于30年海豚研究数据训练,能识别并预测海豚声音模式,参数仅400M,可在普通手机上运行。这是人类首次能够与动物进行实时交流的AI模型。