震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
大模型公司Anthropic的研究发现,其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。
大模型公司Anthropic的研究发现,其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。
新智元报道
编辑:桃子 好困
【新智元导读】
成立仅三年,估值180亿美金Anthropic正义迅雷
最新文章揭示了Claude 3.5 Opus的训练内幕,并指出Anthropic倾向于用最好的模型进行内部训练以提升性能。尽管存在一些未发布的原因,顶尖实验室仍在加速建设和投资硬件基础设施,表明大模型的Scaling Law仍然有效。
各大AI公司的官方发布风格被总结成段子。OpenAI充满悬念;Google故作神秘;DeepMind秀又诚实;Anthropic谨慎可爱;Meta求生欲满满;Microsoft销售本色;中国科技公司实干派;NVIDIA营销高手;xAI标新立异。
木易介绍自己为AI领域产品经理,并创建了专注于分享AI知识的公众号。最近Anthropic推出Claude新功能自定义回复风格(Custom Styles),让用户根据需求选择特定风格进行回答。该功能支持内置预设风格和自定义上传或描述风格两种方式。
Anthropic推出为期6个月的研究员计划,提供丰厚津贴、算力支持及一对一导师指导。研究方向涵盖对抗性鲁棒性与AI控制、可扩展监督等前沿领域,要求参与者具备强大的技术背景和热情的AI安全研究态度。
木易分享了Anthropic发布的Model Context Protocol(MCP)开源协议、Claude的自定义风格功能、月之暗面的新数学模型Kimi、OpenScholar科研助手模型发布以及xAI推出Grok独立应用程序等AI领域进展,强调这些创新将提升AI工具和应用的质量与效率。