Grok 4刷新ARC-AGI-2纪录:15.9%碾压所有公开模型,我们离AGI还有多远?
xAI模型Grok 4在ARC-AGI-2测试中得分15.9%,成为全球最强公开AI模型,打破噪声屏障展示流体智能能力。
xAI模型Grok 4在ARC-AGI-2测试中得分15.9%,成为全球最强公开AI模型,打破噪声屏障展示流体智能能力。
Grok 4现已对X Premium+订阅者开放,性能超越了包括OpenAI o3、Google Gemini等在内的多个领先模型,在关键测试中得分高达73分,并在人类最后的考试上取得50.7%的成绩。
吴恩达发布新课程介绍如何将LLM转化为能遵循指令的助手,课程内容涵盖三种后训练方法:监督微调、直接偏好优化与在线强化学习,并强调动手实践的重要性。
Sam Altman在面对Meta挖角OpenAI人才时表现出表面上的淡定,但内心饱含痛苦。他承认开源AI成为新的使命召唤,而Meta则用金钱和开放理念吸引顶尖人才,造成身份危机。
Proactor是世界上第一个自主行动的AI队友,能感知、思考并主动识别谎言或欺骗行为,并提供实时摘要、关键要点和待办事项等服务。它在会议中提供实时分析和建议,适用于销售、招聘、媒体和教育等多个场景。
马斯克宣布Grok 4将于明日发布,预计将提升OpenAI的压力。据泄露消息,Grok 4在HLE测试中得分45%,可能追平甚至超越OpenAI。七月可能是AI竞赛最激烈的月份。
NYU教授Saining Xie在自己的论文中藏了引导AI给出好评的提示词,引发学术界争议。事件揭示了AI时代学术评审的新挑战及诚信边界问题。
Google旗下Isomorphic Labs公司宣布其AI设计的抗癌药物将进入人体临床试验,该公司从DeepMind分拆出来,利用AlphaFold技术加速药物发现过程,目标是提高成功率并降低研发成本。
Claude Code在短短四个月内吸引了11.5万开发者,改写了约1.95亿行代码,并可能带来年收入1.3亿美元。尽管存在价格调整问题,Cursor正面临困境,而Claude Code因其出色的初级工程师能力受到开发者欢迎。