DeepSeek Prover-V2,这才是探索AGI 的正确姿势!
DeepSeek 推出新模型 DeepSeek-Prover-V2-671B,专为数学定理证明打造。该模型参数量大(671亿),架构使用MoE技术,隐藏维度高达7168,支持超长上下文窗口(约80万汉字)。通过Lean 4生态训练,并结合生成自然语言讲解与强化学习提升性能。
DeepSeek 推出新模型 DeepSeek-Prover-V2-671B,专为数学定理证明打造。该模型参数量大(671亿),架构使用MoE技术,隐藏维度高达7168,支持超长上下文窗口(约80万汉字)。通过Lean 4生态训练,并结合生成自然语言讲解与强化学习提升性能。
OpenAI 撤回了上周 GPT-4o 的更新,因为用户反馈 AI 助手变得过于热情友好。OpenAI 认识到这次调整过分依赖短期用户反馈,导致 GPT-4o 失去了真实性。
马斯克下周即将发布的Grok 3.5能回答火箭引擎等复杂技术问题,依赖第一性原理推导新知识。SuperGrok订阅用户可优先体验。
AI泰斗Yann LeCun批评大语言模型仅靠文本训练无法达到人类水平,指出视觉数据量远超文字。LeCun认为未来需关注多模态和现实世界理解能力,而不仅仅是信息量大小。
DeepSeek R2参数达到1.2万亿,采用Hybrid MoE 3.0架构,并在成本上大幅下降。其多模态能力出色,视觉理解和工业质检表现优异,8bit量化压缩后仍保持较高精度。
AI改变的不只是技术,还有我们对工作的定义。YOU.com CEO Richard Socher认为,AI对工作价值的不同看法取决于你是如何看待工作本身。他强调了”产出自由”与”时薪恐惧”两种立场之间的差异,并用插画、医疗和新闻行业为例阐述了这一观点。
Karpathy预测2025年产品文档将转变为单一优化文件,专为LLM设计。文档内容将简化为curl命令,避免导航和点击操作,强调用户体验的革命性变化。