太猛了!DeepSeek R1核心技术复现,30美元实现:小模型 RL Scaling 革命
来自加州伯克利大学的研究团队以极低的成本(低于30美元)成功复现了DeepSeek R1-Zero的关键技术,并在‘倒计时’游戏中展示了小型语言模型的强大自验证和搜索能力。
来自加州伯克利大学的研究团队以极低的成本(低于30美元)成功复现了DeepSeek R1-Zero的关键技术,并在‘倒计时’游戏中展示了小型语言模型的强大自验证和搜索能力。
权威基准测试中,DeepSeek R1综合排名第3,并且在多个技术领域表现出色。此外,R1还被评为人类最后的考试排名第二,引起Meta恐慌。
Andrej Karpathy认为OpenAI的Operator项目类似于数字世界的’人形机器人’,预言未来十年将是智能体(Agent)发展的时代。尽管存在挑战,Karpathy仍对智能体充满信心,并描述了其未来的发展蓝图。
OpenAI 推出名为Operator的研究预览版代理,能够像人类一样浏览网页并执行各种在线任务。这款工具结合了GPT-4o的视觉能力和强化学习,支持WebArena和WebVoyager基准测试领先水平。它具备自我纠错能力,并且允许用户个性化工作流程。OpenAI计划将其公开于API中并扩大访问权限。
字节联合清华发布的UI-TARS AI Agent纯视觉感知、端到端架构及系统2推理能力使其成为通用GUI自动化新突破。多项硬核数据验证其性能超越Claude和GPT-4等现有模型。
OpenAI 正研发一款 AI 编码助手,目标是复制谷歌 Level 6 工程师能力。该助手能处理复杂软件工程任务,2025 年底前计划用户从3亿增长至10亿日活,并力争营收1000亿美元。
Anthropic CEO Dario Amodei 在采访中透露了关于AI模型Claude的未来发展方向、特性和企业与消费者侧重点等内容。他还讨论了AI的进步速度及其对社会和劳动力市场的影响,并提出了人才吸引策略、政策和监管策略以及与科技巨头的合作关系等话题。
OpenAI宣布启动‘星际之门计划’投资5000亿美元在美国建立新的AI基础设施,旨在巩固美国AI领先地位、创造就业、增强国家安全并加速AGI发展。
刚看完《DeepSeek-R1:强化学习驱动的大语言模型推理能力提升》论文。该研究证明了仅通过纯强化学习训练的模型,也能媲美甚至超越使用监督微调的数据训练的模型。这一突破展示了无监督学习的巨大潜力,并分享了小型模型通过蒸馏技术获得强大推理能力的方法。
DeepSeek-R1 正式版发布,性能媲美 OpenAI-o1,完全开源并附带详细技术报告,助力 AI 技术普及。