超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭
MIT研究者发现,测试时训练方法能帮助大模型提升复杂推理问题的准确率。该方法将单个未标记的测试实例转化为自监督学习问题,在对测试样本进行预测之前更新模型参数。
MIT研究者发现,测试时训练方法能帮助大模型提升复杂推理问题的准确率。该方法将单个未标记的测试实例转化为自监督学习问题,在对测试样本进行预测之前更新模型参数。
腾讯 Hunyuan 团队提出 MM-IQ 基准测试框架,旨在评估多模态模型的抽象推理和逻辑思维能力。该基准包含 8 种不同推理范式,涵盖 2,710 个精心策划的测试项目,涉及逻辑运算、数学推理等多样化的题目配置。