冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂

谷歌发布Gemini 2.0系列模型,包括Pro、Flash和Lite版本,可生成代码实现复杂任务,并且性能领先。Gemini 2.0 Pro在编码和复杂指令任务中表现最强,已在Google AI Studio和Vertex AI向开发人员提供试用。

AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

字节跳动推出的新技术OmniHuman能够利用单张图片和音频生成生动人物视频,支持任意大小的人物占比。OmniHuman采用多模态混合训练策略,从大规模数据中受益,解决了现有方法的局限性。

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

斯坦福大学和华盛顿大学的研究人员提出了一个新的测试时间扩展方法s1,仅使用1000个样本就实现了与OpenAI o1级别的预览性能。该方法通过预算强制来控制解码时间,并在数学问题上提升了27%的表现。