日期: 2025 年 6 月 9 日
AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
大模型o3-mini-high在7个月内从只能答对2%的数学题目提升至答对22%,引发了数学家们对其推理机制和局限性的讨论。研究发现,o3-mini-high依靠广泛的知识储备而非精确证明,并依赖直觉而非严格推导。同时,它缺乏创造力、理解深度以及形式精确性,表现出一定程度的幻觉现象。
推理能力飙升,指令遵循暴跌?MathIF基准揭示大模型“服从性漏洞”
研究揭示越擅长数学推理的模型反而更难完全遵守指令。这项发现强调了AI在处理复杂任务时的’聪明’与’听话’之间的权衡关系,未来有望构建既能深入思考又能严格守规矩的大模型。
影视级3D生成新王:Direct3D-S2全面开源!8块GPU超越闭源登顶HF
DirectTech发布的3D生成模型Direct3D-S2在HuggingFace榜单上登顶,仅用8张GPU训练,效果超越闭源商用模型,支持影视级别的精细度。该模型采用空间稀疏注意力机制提升效率和质量。
ICML 2025 抛弃全量微调!北大提出VGP范式,语义低秩分解解锁ViG高效迁移
北京大学提出VGP方法,通过语义低秩分解增强图结构图像模型的参数高效迁移能力,在多种下游任务中实现媲美全量微调的性能。
导师放养,偷偷发了顶会……
万物皆卷的时代,越来越多的人通过高质量论文来增强竞争力。咕泡科技提供一站式科研辅导服务,包括选题、实验设计验证、创新点设计等环节,助力学生在短时间内提升学术能力,确保论文顺利发表。
零门槛搭建AI Agent应用:Autogen Studio让小白也能轻松上手
Microsoft Autogen 框架及其可视化工具 Autogen Studio 是一个强大的多智能体对话框架,特别是 v0.4 版本让小白也能轻松上手,本文提供了保姆级的上手指南,并剖析其使用方法及常见坑点。
Deepseek小工具需要开发教程?15分钟完成3个小工具案例!
大瑜介绍了如何利用DeepSeek开发网页版办公工具和小游戏,包括人民币转换、抽奖工具以及贪吃蛇游戏等,强调了找需求及商业化的重要性,并提供了加入讨论群及获取资源的联系方式。