Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
Meta通过改进Transformer架构,利用Triton和三线性函数提升模型性能,尤其在数据有限情况下表现更优。
Meta通过改进Transformer架构,利用Triton和三线性函数提升模型性能,尤其在数据有限情况下表现更优。
OpenAI和Anthropic作为人工智能领域的领军者,通过快速增长实现了远超同行的估值倍数。尽管他们仍需面对持续烧钱的问题以及新兴竞争对手的压力,但其在模型开发方面的实力使其成为该行业的价值投资标的。
Meta 挖角 AI 研究员,包括华人学者如汪滔、毕树超等加入 Meta。这些新成员在各自领域具有影响力。Meta 已招揽 11 名顶级研究员,涵盖超级智能实验室和多模态研究等多个方向。
Andrej Karpathy提出代码设计应像细菌基因组一样,小巧精悍、模块化且自给自足,并强调通过‘水平基因转移’促进社区发展。他引用了细菌的生存策略来比喻编码风格,认为这能帮助构建繁荣的开源社区。
本文介绍了华为诺亚实验室发布的’人类最后的编程考试'(HLCE)基准测试,旨在评估当前大语言模型(LLM)在复杂编程任务上的表现。结果显示,即使是顶尖的大模型,在HLCE上也面临巨大挑战,单次尝试成功率仅15.85%或11.4%,与其它基准相比显著降低。研究发现LLM擅长推理但对交互式问题不足,且存在自我认知能力不强的问题。总体而言,尽管在测试时扩展规律上表现良好,LLM仍需进一步优化。
研究提出了一种基于推理的深度研究代理,能够自主分析和整合多源信息以完成复杂的研究任务。该代理在OpenAI的多项评测中表现出色,并受到学术界的广泛关注。
OpenAI 的 ChatGPT 于 11 月 30 日发布,最初命名‘Chat with GPT-3.5’。产品负责人在最后一刻决定简化为‘ChatGPT’。ChatGPT 凭借简洁的界面和易于上手的特点迅速走红,成为OpenAI历史上最成功的产品之一。