推理模型
95后北大校友挑起ChatGPT Agent大梁!今年刚博士毕业,曾获陶哲轩支持的AIMO第二名
OpenAI发布会C位被华人占据,孙之庆、马丁(MengTian)李和张熙堃等华人员工参与重要项目。小扎挖角多名OpenAI研究员后引起关注,首席研究官Mark Chen离职加入Meta,Alexandr Wang成为全球最年轻的亿万富豪之一。
奥特曼YC硬核访谈:走ChatGPT之路必死,世界差点没有OpenAI!
奥特曼在YC访谈中分享了OpenAI的创立历程、技术突破以及对未来的展望,强调推理模型的重要性,并鼓励创业者不要模仿ChatGPT。他提到了未来可能会集成的推理和多模态模型,并对未来十年充满期待。
DeepSeek开源生态再下一城!DeepSite V2上线,一句话建网页、做动画、改样式
国产大模型推出DeepSite V2版本,实现网页生成的‘聊天式’体验,支持多语言指令、细粒度编辑和Diff Patching技术,简化前端开发流程,目前免费开放使用。
Mistral 发了个小模型—— Magistral-Small-2506 这是他们的首个推理模型
Mistral发布Magistral-Small-2506小模型,与Qwen3-4B类似大小且推理能力强,适合单卡32G运行,分数略高于Qwen3-4B。
看好了,这才是7家大模型做高考数学题的真实分数
这篇文章描述了作者利用多个推理模型进行了一场数学高考的模拟测试,并详细介绍了测试规则。最终结果显示,Gemini表现最突出,而DeepSeek和Qwen3则表现较弱。通过这次测试,作者认为对于AI模型来说,数学高考并非特别难,但识别错误会影响结果。文章强调了考试公正性和严谨性的重要性。
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
沃顿商学院研究发现,奥特曼喜爱的直接回答提示词会显著降低模型准确率。同时,思维链(CoT)命令的效果也有限,并且可能导致答案不稳定增加计算成本。