跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

数学基准测试

满血o3降智和幻觉倍增的原因可能找到了

上午8时 2025/04/22 作者 AI寒武纪

OpenAI推出的满血版O3模型在数学基准测试中的成绩被独立测试揭穿为10%,远低于原公布的25%+,揭示了测试环境、数据集以及模型版本差异的影响。

分类 国际、 资讯 标签 10%、 Epoch AI、 FrontierMath、 o3模型、 OpenAI、 数学基准测试 发表评论

你正在做的大模型评测,可能有一半都是无用功 上海AI Lab&上交&浙大出品

下午11时 2025/03/18 作者 量子位

一半
都是“重复劳动”!
来自上海AI Lab、上海交大以及浙江大学最新研究显示:当下流行的多模态大

分类 资讯 标签 MLLM、 优化设计原则、 低性能、 冗余问题、 实例冗余、 数学基准测试 发表评论

人大清华提出自主搜索版「Search-o1」!解决知识困境,大幅提升推理模型可靠性

下午4时 2025/01/21 作者 新智元

新智元报道
编辑:泽正 英智
【新智元导读】
人大清华团队提出Search-o1框架,大幅提升推理模

分类 资讯 标签 GPQA、 QwQ-32B、 RAgent-QwQ-32B、 Search-o1、 人类专家、 数学基准测试 2 条评论

微软联合清北推出rStar-Math技术,数学推理能力赶超OpenAI o1

下午4时 2025/01/11 作者 多知

微软发布rStar-Math技术,让小型语言模型具备深度思考能力。通过蒙特卡罗树搜索方法,该技术在多个开源模型测试中取得了显著提升,甚至超越了OpenAI的o1-preview系统。

分类 资讯 标签 rStar-Math、 北京大学、 小型语言模型、 微软、 数学基准测试、 清华大学 发表评论

实测天工4.0,比肩o1,力压kimi,推理能力大增!

下午2时 2025/01/09 作者 AI先锋官

昆仑万维发布「天工大模型」4.0版本,免费向用户开放。Skywork o1在数学和代码基准测试中表现优于国产模型。对比其他模型,其推理能力和学习能力有所提升。

分类 资讯 标签 AI音乐、 Skywork o1、 国产模型、 推理能力提升、 数学基准测试、 昆仑万维 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

近期文章

  • 走进杭州“六小龙”等AI先锋企业,解码AI商业新动能|2025杭州AI创变营来啦
  • 国产AI智能体竞逐海外!Manus推出数据分析师、思维导图,Genspark上线AI表格、幻灯片
  • “由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
  • 王兴兴放话“人形机器人订单爆了” 受制于产能
  • 王兴兴:很多人形机器人企业爆单了,宇树科技非常缺人!

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×