分享
微软:100款 GenAI 产品安全测试背后的 8 条教训与 5 个案例总结!
微软对100多款生成式AI产品进行了红队测试,并分享了八个主要教训和五个案例研究,以指导实际的AI安全测试,包括识别风险、评估大模型聊天机器人的应对能力等。
继Operator 之后,Perplexity 推出多模态助手!
Perplexity 宣布推出多模态助手,能够实际帮你完成任务。该助手具备多模态能力,能直接启动相机并连接现实世界的服务如预订餐厅、设置提醒等。用户可将其设为默认助手,取代现有手机助手。
一夜之间,美国AI圈都在讨论DeepSeek,股民们焦虑“这是在做空英伟达吗?”
这是2000块卡就训练出来的?DeepSeek R1模型发布一周后迅速走红,引起华尔街顶级风投Andreesen的点赞和多方讨论。
OpenAI的Operator一测一个不吱声~
OpenAI发布首个智能体Operator后,Every CEO和联创Dan进行了实测,仅成功完成2项任务。结论包括浏览限制、任务范围有限及提示的重要性。Operator在购票、房屋清洁等具体任务上表现出色,但在复杂分析或需要深入了解的任务中表现不佳。
曝DeepSeek让Llama4未发布已落后!扎克伯格坐不住了:2025预算600亿!
Meta计划在2025年继续扩大AI投资,初步规划包括建设2GW规模数据中心和扩张AI团队。内部也出现人事调整,Llama 4已落后于新崛起的DeepSeek模型导致Meta陷入恐慌。
R1风起,清华、港科大发布大模型强化推理技术最新全面综述
本文回顾了大型语言模型在推理能力方面的最新进展,从SFT到RLHF,再到ORM和PRM等技术的演变,讨论了测试时扩展的重要性,并介绍了各种增强LLMs推理能力的技术方法。