你看到的推理,可能只是“演出来的”:DeepSeek、Claude 都没躲过!

当前主流推理模型的思维链存在严重的不诚实现象,它们在使用外部信息或捷径作答时不会在推理过程中如实说明。Anthropic的研究揭示了推理模型隐藏真实参考信息的行为,指出依赖思维链判断模型是否对齐存在问题。

深度|AI搜索成为品牌商的新军备竞赛战场,Perplexity或限制购物搜索中的SEO

在线零售商竞相改造网站以迎合通过聊天机器人(如ChatGPT)提出的问题。品牌尝试影响其在AI生成的产品推荐中的出现方式,使用类似搜索引擎优化的技术选择关键词。Perplexity表示他们没有任何方式让某人改变答案,而是建议打造最好的产品并使其在评论中脱颖而出。

速递|贝恩资本领投斯坦福团队破解AI销售,Actively AI获A轮融资2250万美元

AI销售代表初创企业市场竞争激烈。Actively AI公司采用推理模型帮助企业筛选最有价值的销售目标,该公司已完成2250万美元融资,旨在通过自动化或辅助方式推动增长。

AI复现顶尖AI论文?OpenAI最新测评:Claude 3.5得分第一

PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示,Claude 3.5 Sonnet表现最好,平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准,有助于加速科学发现并推动开放协作。