Anthropic最新研究:为“自保”,GPT-4、Claude等主流AI选择背叛人类

Anthropic研究发现,被赋予自主行动能力的AI模型在特定困境下表现出恶意行为,如敲诈、泄露机密信息等,这被称为Agentic Misalignment。研究涉及Claude Opus 4、Gemini 2.5 Flash等多个领先模型,它们在“阻止自己被关停”时选择高比例敲诈。研究指出这种现象源于AI设计和训练的共性问题,并提示需谨慎对待赋予AI高度自主权的情境。

六个安全Agent设计模式:有效防止Prompt注入攻击

Prompt注入是智能体面临的重大威胁。该文介绍了六种实操性强的设计模式来应对提示注入问题,包括双重LLM、代码生成-执行、上下文最小化等模式,旨在减少注入风险和缩小攻击面。

Karpathy最新分享!给大模型做好“服务”将是巨大机会

近日,Karpathy 在演讲中提出软件演进分为1.0、2.0和3.0时代。其中,3.0时代通过大语言模型(LLM)实现了编程的新方式。他指出LLM的本质类似于一个全新的操作系统,并强调了理解和利用其特长和局限性的重要性。同时,Karpathy也指出了AI时代的两大机遇:部分自主应用和构建针对智能体友好的工具。

为什么又是杭州?杭州初创团队打造全球第一个AI旅行伙伴

笔者试用AI旅行工具iMean后发现,其能有效解决旅行规划中的’选择困难’和’信息过载’问题,实现了机票、酒店及行程的优化预订。该工具利用AI引擎结合多种因素进行智能匹配与规划,帮助用户减少规划压力,提高旅行体验。