大模型归档 - 第49页共58页 - 每时AI

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

2025年1月6日12时作者量子位

斯坦福大学研究表明，在更换数学题变量名称后，大模型的准确率直线下降。即使是表现最好的o1-preview模型，其准确率也从50%降至33.96%，表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题，为自动化评估提供方法并生成变体数据集。

50 多岁转型 AI，犀利批判硅谷大厂：“先变成个混蛋才能做成事”

2025年1月1日16时作者 AI前线

作者 | SourceForge
译者 | 平川
策划 | 褚杏娟
在 SourceForge 播客

什么是序列到序列(Seq2Seq)模型？以及为什么图像理解领域主要使用的是CNN网络而不是Transformer网络？

2025年1月1日14时作者 AI探索时代

大模型的核心在于特征提取和重建。Transformer架构在NLP领域表现突出，而CNN则适用于图像处理。序列到序列(Seq2Seq)用于具有连续性内容的生成，如机器翻译、语音识别及视频处理等领域。CNN擅长处理不连续且独立的图像数据。

Anthropic 的智能体开发经验：最成功的≠最复杂的

2024年12月31日23时作者 Founder Park

文章转载自「机器之心」。
AI 发展到后半场「大雾散去」，如何让大模型的智力落实成执行力，智能体似乎

2024国内AI盘点：谁领风骚？

2024年12月30日14时作者 AI信息Gap

木易总结2024年国内AI领域发展：360AI搜索获web端最佳流量奖、百度文库和Kimi分列app端前两名；阿里通义、DeepSeek、零一万物获奖模型；Kimi在UI设计上表现优秀；腾讯作为大厂默默无闻，百度和360因用户体验问题受挫。