速递|大模型比应用估值便宜?OpenAI、Anthropic增速碾压同行却估值倍数低

OpenAI和Anthropic作为人工智能领域的领军者,通过快速增长实现了远超同行的估值倍数。尽管他们仍需面对持续烧钱的问题以及新兴竞争对手的压力,但其在模型开发方面的实力使其成为该行业的价值投资标的。

Karpathy揭秘开源成功密码:像细菌一样写代码

Andrej Karpathy提出代码设计应像细菌基因组一样,小巧精悍、模块化且自给自足,并强调通过‘水平基因转移’促进社区发展。他引用了细菌的生存策略来比喻编码风格,认为这能帮助构建繁荣的开源社区。

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

本文介绍了华为诺亚实验室发布的’人类最后的编程考试'(HLCE)基准测试,旨在评估当前大语言模型(LLM)在复杂编程任务上的表现。结果显示,即使是顶尖的大模型,在HLCE上也面临巨大挑战,单次尝试成功率仅15.85%或11.4%,与其它基准相比显著降低。研究发现LLM擅长推理但对交互式问题不足,且存在自我认知能力不强的问题。总体而言,尽管在测试时扩展规律上表现良好,LLM仍需进一步优化。