AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT
29个顶级大模型在不等式证明任务上的能力被首次系统评估,研究揭示了模型在推理过程中的普遍错误和逻辑漏洞。IneqMath数据集和LLM-as-Judge评估体系帮助发现并补足传统评估的盲点。
29个顶级大模型在不等式证明任务上的能力被首次系统评估,研究揭示了模型在推理过程中的普遍错误和逻辑漏洞。IneqMath数据集和LLM-as-Judge评估体系帮助发现并补足传统评估的盲点。
OpenAI开始为购买额外产品的客户提供ChatGPT企业版折扣,预计到2030年,这些企业的贡献将近150亿美元。这一举措加剧了微软与OpenAI的关系紧张,导致其销售人员因无法提供同样折扣而错失交易。
Multiplier Holdings由Stripe前高管创立,通过收购专业服务机构并应用AI技术提升效率。该公司已完成2750万美元融资,计划继续收购具有高经常性收入的服务公司,并打造AI驱动的会计师事务所竞争对手。
田渊栋团队利用连续隐向量进行推理,提出两层Transformer可以解决ProsQA问题,准确率达到99%,远超12层离散CoT模型的83%。论文发表于arXiv,该成果不仅应用于科学研究,还激发了作者创作科幻小说的兴趣。
Midjourney发布首款视频生成模型V1,支持手动或自动生成动作提示词,可生成最长20秒的流畅视频。但目前功能仍有限,无法生成音频和进行编辑。
以色列初创公司Coralogix近日完成1.15亿美元融资,估值增长超3年。计划扩大印度工程团队,并开发AI代理解决复杂问题。
腾讯元宝上线电脑版AI编程模式,支持多种语言在线运行。通过自然语言描述需求,模型即时生成并执行程序。用户可体验制作3D魔方动画、九宫格卡片等任务。