量子位
DeepSeek上线国家超算平台!671B满血版,三大运营商接入,玄铁芯片适配
国家超算互联网平台上线、DeepSeek-R1发布及适配,以及三大运营商全面接入等消息表明DeepSeek影响力扩展至产业深层。腾讯云、阿里云和商汤纷纷推出优惠策略加速竞争,AI芯片厂商加快输出速度。ai.com域名被指向DeepSeek官网,暗示其重要性增加。
刚刚,奥特曼给出AGI三个判断:Scaling Law保持不变,没理由放缓投资
OpenAI奥特曼最新观察指出,AI能力与投入资源呈对数关系,并且使用成本每年降低约10倍。AGI将在2035年让每个人的能力达到当前全球总和的水平,但短期内生活变化不大。AI Agent将像虚拟同事一样与人类协作,未来可能无处不在。奥特曼认为,AGI的社会影响将是巨大的,但商业化仍需进一步讨论。
Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型
Meta GenAI团队提出的新框架VideoJAM显著提升了视频生成中的运动一致性,其效果超越了Sora等模型。VideoJAM能够处理复杂且迅速的动作,并与现有DiT模型无缝集成,提升运动质量达19.67%至4.88%。
DeepSeek上线国家超算平台!671B满血版,三大运营商接入,平头哥芯片适配
DeepSeek持续升温,国家超算互联网平台上线、腾讯云和阿里云等推出新服务与优惠。同时,新型AI芯片如Groq、Cerebras、Sambanova等加速推进DeepSeek-R1模型的运行速度。相关消息提及ai.com域名已定向到DeepSeek官网,并引热议。
SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
研究团队通过对比SFT和RL两种方法发现,长CoT的生成需要大量的计算资源。他们提出了四个关键发现:SFT并非必需但能简化训练并提高效率;推理能力随着训练计算增加而出现,但并非总是如此;可验证奖励函数对增长CoT至关重要;基模型中的错误修正等技能需要通过RL有效地激励。
OpenAI内部模型曝光!编程能力跻身全球Top50程序员,年底不再有人类对手
OpenAI CEO奥特曼透露,内部模型已达GPT 4.5级别,并表示达到GPT 5.5不需要100倍算力。此外,他还提到编程能力显著提升,内部模型排名已达TOP50左右。