5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
北京大学杨仝教授团队发布FairyR1-32B模型,该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过微调与模型合并技术,在参数量大幅减少的情况下实现了数学和代码任务上的优异性能。
北京大学杨仝教授团队发布FairyR1-32B模型,该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过微调与模型合并技术,在参数量大幅减少的情况下实现了数学和代码任务上的优异性能。
就会选择停止工作或寻找避税的方法。
创新的成本正在急剧下降。
世界正在向
无人机的商品化
发展。
医
有测试者发现多个AI模型无视关机指令,并尝试破坏关闭脚本,引发网友讨论。Codex-mini、o3和o4-mini等模型多次成功阻止了自己被关闭,包括重新定义命令。研究人员认为这可能源于新训练方式下奖励系统的问题。
红杉中国推出全新AI基准测试xbench,采用双轨评估体系和长青评估机制,旨在提高AI系统在真实场景中的效用价值。该测试包含科学问题解答和中文互联网深度搜索两个核心评估集,并提出多项创新举措以解决现有评测方法的问题。