面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准
本文提出首个大模型推理任务可靠性基准ReliableMath,揭示现有模型在处理无法解问题时的缺陷,并设计了用于评估可靠性的方法和数据集。通过实验分析发现,使用指令性提示可以显著提高模型对不可解问题的回答准确性及可靠性,但小模型仍存在提升空间。
news
本文提出首个大模型推理任务可靠性基准ReliableMath,揭示现有模型在处理无法解问题时的缺陷,并设计了用于评估可靠性的方法和数据集。通过实验分析发现,使用指令性提示可以显著提高模型对不可解问题的回答准确性及可靠性,但小模型仍存在提升空间。
Mira Murati 的创业公司 Thinking Machines Lab 成功募集了 20 亿美元的种子轮融资,成为硅谷历史上规模最大的种子轮融资之一。该公司将构建一个包含顶尖人才团队和海量算力的「共生体」。
AI 领域持续快速发展,ACL 2025 将于7月在奥地利维也纳召开。机器之心等机构联合发起 ‘云帆・ACL 2025 AI Talent Meetup’,邀请参与者围绕前沿技术与人才交流展开讨论。
香港一名法律系男学生涉嫌通过人工智能软件制作并散布超过700张裸露色情图片,引发关注。目前,港个人资料私隐专员公署已展开刑事调查,并强调任何违反《私隐条例》的行为将受惩罚。
英伟达创始人黄仁勋在2025中国国际供应链促进博览会开幕式上表示,AI的下一波浪潮将是机器人,并强调中国公司在利用NVIDIA Omniverse平台训练机器人方面取得进展。他同时指出,AI已成为基础设施并重塑全球供应链。