从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench 下午11时 2025/06/09 作者 AI科技大本营 TH 数学基准因覆盖不足和易被数据污染饱受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测