7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
腾讯混元AI数字人团队提出RLVER框架,利用用户模拟器解决多轮对话中的环境、奖励和训练问题,显著提升大模型在情感对话基准Sentient-Benchmark上的表现。
腾讯混元AI数字人团队提出RLVER框架,利用用户模拟器解决多轮对话中的环境、奖励和训练问题,显著提升大模型在情感对话基准Sentient-Benchmark上的表现。
大模型在IMO数学竞赛中的表现:Gemini以超30%总成绩拔得头筹,o3和o4-mini紧随其后。MathArena对五款模型进行评估发现多数模型在几何题上得分较低,且存在格式优化过度的问题;Grok 4则因答案过于简略而受到批评。
Meta调整其AI组织架构,整合3400多人团队,头号负责人亚历山大·王管理AGI研究、产品应用和Llama研发等多方面工作。与字节跳动类似,强调对齐AI技术并实现商业化。
Lovable,一个仅成立8个月的瑞典AI初创公司,在短短几个月内迅速获得2亿美元融资并成为独角兽。该公司通过自然语言帮助非编程用户生成网站和应用,其7500万美元年度经常性收入(ARR)和3万名付费用户的增长速度令人印象深刻,并吸引了众多行业巨头的投资。
几千人盲投,Kimi K2超越DeepSeek拿下全球开源第一!歪果网友们纷纷点赞,Kimi在多项能力上紧追顶尖闭源模型。GitHub和Hugging Face下载量近10万,Kimi官方因访问量大回应称API过慢。关于K2架构继承自V3并进行了参数调整的解释出炉。随着开源力量崛起,人们认为未来在性能和成本之间不再需要取舍,更多人对开源模型抱有期待。
米哈游成立5亿新公司无定谷科技,布局人工智能领域。该公司涉及软件开发、动漫游戏开发及人工智能应用软件等领域。此前米哈游已有多笔在AI领域的投资和布局,包括逆熵研究部等团队。
OpenAI最新发布的ChatGPT Agent能够执行多种工作和生活任务,具备整合信息、生成文档、安排行程等能力,并能接管整个电脑操作系统。它融合了Operator的操作执行能力和DeepResearch的分析能力,展示了强大的统一智能体系统。
谷歌推出的新架构Mixture-of-Recursions(MoR)在单一框架中实现了参数共享和自适应计算,提高了推理速度并减少了内存需求。它超越了Transformer,在相同的训练预算下提供了更高的性能和效率。
Hyung Won Chung在离开OpenAI后分享了对人工智能未来的深刻思考,指出AI正在成为有史以来最强大的杠杆机制。他强调了AI如何通过智能体实现无需许可的复合杠杆作用,并对未来人类社会的发展提出了新的视角和问题。