跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

数学基准测试

满血o3降智和幻觉倍增的原因可能找到了

上午8时 2025/04/22 作者 AI寒武纪

OpenAI推出的满血版O3模型在数学基准测试中的成绩被独立测试揭穿为10%,远低于原公布的25%+,揭示了测试环境、数据集以及模型版本差异的影响。

分类 国际、 资讯 标签 10%、 Epoch AI、 FrontierMath、 o3模型、 OpenAI、 数学基准测试 发表评论

你正在做的大模型评测,可能有一半都是无用功 上海AI Lab&上交&浙大出品

下午11时 2025/03/18 作者 量子位

一半
都是“重复劳动”!
来自上海AI Lab、上海交大以及浙江大学最新研究显示:当下流行的多模态大

分类 资讯 标签 MLLM、 优化设计原则、 低性能、 冗余问题、 实例冗余、 数学基准测试 发表评论

人大清华提出自主搜索版「Search-o1」!解决知识困境,大幅提升推理模型可靠性

下午4时 2025/01/21 作者 新智元

新智元报道
编辑:泽正 英智
【新智元导读】
人大清华团队提出Search-o1框架,大幅提升推理模

分类 资讯 标签 GPQA、 QwQ-32B、 RAgent-QwQ-32B、 Search-o1、 人类专家、 数学基准测试 2 条评论

微软联合清北推出rStar-Math技术,数学推理能力赶超OpenAI o1

下午4时 2025/01/11 作者 多知

微软发布rStar-Math技术,让小型语言模型具备深度思考能力。通过蒙特卡罗树搜索方法,该技术在多个开源模型测试中取得了显著提升,甚至超越了OpenAI的o1-preview系统。

分类 资讯 标签 rStar-Math、 北京大学、 小型语言模型、 微软、 数学基准测试、 清华大学 发表评论

实测天工4.0,比肩o1,力压kimi,推理能力大增!

下午2时 2025/01/09 作者 AI先锋官

昆仑万维发布「天工大模型」4.0版本,免费向用户开放。Skywork o1在数学和代码基准测试中表现优于国产模型。对比其他模型,其推理能力和学习能力有所提升。

分类 资讯 标签 AI音乐、 Skywork o1、 国产模型、 推理能力提升、 数学基准测试、 昆仑万维 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

近期文章

  • AI绘画大师速成:让AI全自动写提示词
  • David Baker 团队最新研究,利用蛋白质序列生成模型实现重叠基因设计,成功率极高
  • 突发!知行科技全资子公司收购「小工匠机器人」大部分股份
  • Google A2A协议的完整Python实现,简化AI服务中MCP服务器的集成MCPHub
  • 8.6k 颗星!颠覆传统!实时知识图谱框架Graphiti,为AI智能体打造动态记忆核心

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×