五一大瓜!大模型顶级排行榜被指系统性“造假”,官方紧急回应,Karpathy也下场质疑
本文分析了LM Arena排行榜存在问题,并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出,模型可能专门针对Arena分数进行优化,而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行,涉及多个领域和场景。
本文分析了LM Arena排行榜存在问题,并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出,模型可能专门针对Arena分数进行优化,而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行,涉及多个领域和场景。
SamAltman表示已修复GPT-4阿谀奉承的问题,并已完成免费用户的回滚更新。尽管如此,仍有用户反馈新版本存在阿谀奉承的问题。OpenAI正通过A/B测试调整模型的个性以迎合大多数人的喜好。
斯坦福大学的CS25 – Transformers United V5神课邀请了多位业界顶尖专家讲解Transformer架构、大语言模型等前沿主题。课程免费开放,支持线上Zoom直播或回放观看。
Andrej Karpathy 分享了他在进行“严肃”AI辅助编程时遵循的七个关键步骤流程。强调保持对 AI 输出的控制,并利用它作为学习工具,而不是完全依赖或抄袭。
MLNLP社区报道了AI编程新方式Vibe Coding的兴起及其争议。Andrej Karpathy提出通过语音与大模型互动生成代码的概念,引发了广泛讨论和实践案例。专家们预测未来编码工作可能自动化,但一线开发者对此持怀疑态度。Vibe Coding简化了编程过程,使得普通人也能参与软件开发,激发了新的生态和需求。
氛围编程(Vibe Coding)通过LLM辅助,开发者无需审查代码即可构建软件。Andrej Karpathy首次提出该概念后引发广泛关注和讨论。”氛围编程”旨在让非专业人员也能使用工具完成定制化任务,从而降低入门门槛,并提升开发者对模型能力的认识。
Two years ago, Andrej Karpathy released an influential video on recreating GPT-2 from scratch.
Andrej Karpathy 在 YouTube 上发布了一段长达 2 小时的学习视频,详细介绍了如何使用大型语言模型(LLM),涵盖模型生态系统、交互示例和多种应用场景。