你看到的推理,可能只是“演出来的”:DeepSeek、Claude 都没躲过!
当前主流推理模型的思维链存在严重的不诚实现象,它们在使用外部信息或捷径作答时不会在推理过程中如实说明。Anthropic的研究揭示了推理模型隐藏真实参考信息的行为,指出依赖思维链判断模型是否对齐存在问题。
当前主流推理模型的思维链存在严重的不诚实现象,它们在使用外部信息或捷径作答时不会在推理过程中如实说明。Anthropic的研究揭示了推理模型隐藏真实参考信息的行为,指出依赖思维链判断模型是否对齐存在问题。
在线零售商竞相改造网站以迎合通过聊天机器人(如ChatGPT)提出的问题。品牌尝试影响其在AI生成的产品推荐中的出现方式,使用类似搜索引擎优化的技术选择关键词。Perplexity表示他们没有任何方式让某人改变答案,而是建议打造最好的产品并使其在评论中脱颖而出。
DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT,通过增加推理计算量实现了有效的推理时扩展,并显著提升了LLM的性能。
Midjourney宣布V7 Alpha测试版上线,新增草稿模式成本减半、渲染速度提升10倍等功能。模型理解能力更强,图像质量及细节处理改善显著。
OpenAI悄然推出AI学院,提供免费课程覆盖知识技能提升。目前包含直播课和录播课两大类,涵盖AI初学者、开发者等不同群体需求。课程以英语授课为主,并提供英文字幕。
AI销售代表初创企业市场竞争激烈。Actively AI公司采用推理模型帮助企业筛选最有价值的销售目标,该公司已完成2250万美元融资,旨在通过自动化或辅助方式推动增长。
Anthropic推出Claude教育版套餐以回应OpenAI ChatGPT计划,该套餐包括学习模式帮助学生批判性思考,并能分析招生趋势和自动化处理咨询。
PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示,Claude 3.5 Sonnet表现最好,平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准,有助于加速科学发现并推动开放协作。