大模型黑盒探秘:通过“电路追踪”(Circuit Tracing)揭示大模型内部推理机制?

2025年3月29日周六,北京晴天。文章提到了创业的观点和MCP的概念,并介绍了大模型推理可解释性的电路追踪分析方法及其应用实验。通过类比神经回路来揭示语言模型内部的计算机制,研究者构建了归因图以可视化模型的中间步骤,发现大模型在处理各种任务时具有多步推理、规划及复用不同语言特征的能力。

打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

最新研究提出LONGPROC基准测试评估长上下文语言模型处理复杂信息并生成回复的能力。尽管主流模型声称能处理32K tokens,但在实际应用中的表现并不尽如人意,尤其是对于复杂的多任务生成任务。