AI 性格失控等诡异现象,终于有了科学解释

Anthropic新研究揭示了控制语言模型性格特征的神经活动模式,通过生成人格向量解释了AI的恶意、谄媚和幻觉现象,提出了预防性引导来防止模型获得负面性格,并展示了监控功能、数据筛查以及疫苗式防护机制的应用前景。

北航LiveRepoReflection: 扭转乾坤-仓库级代码反射

本文提出了一种新的代码仓库反思基准LiveRepoReflection,用于评估多文件仓库上下文中的代码理解和生成能力,该基准包含6种编程语言的1,888个测试案例,并通过严格的筛选流程确保其质量与难度。