不卷智商,卷“干活”!国产模型 Kimi K2 凭什么在国外杀疯了?

Kimi K2 是一款万亿参数级别的国产大模型,主打代码生成、工具调用和数学推理等功能。在OpenRouter上,其API使用量已超过xAI并排在第九名。Kimi K2分为基版和指令微调版,支持开发者和研究人员使用,并可通过官网、App及Hugging Face下载使用。

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

DreamPRM 是加州大学圣地亚哥分校团队开发的一种方法,它在数学推理测评榜上排名第一。通过双层优化框架解决多模态大语言模型的数据质量不均衡问题,显著提升了其数学推理能力。

大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

CMU研究发现,仅用监督微调训练的大模型在其他通用任务上的表现有限甚至退步。强化学习微调的模型则能更好地将数学能力迁移到推理和非推理任务上,预示着强化学习可能是实现可迁移推理的关键方法。

【Osmosis-Structure-0.6B】小模型大能量!这款小型语言模型如何轻松搞定结构化输出?

Osmosis-Structure-0.6B 是一款小型语言模型,专注于结构化输出生成。通过强化学习和大量结构化数据训练,在数学推理任务中表现出色,并在多个领域如智能客服、数据分析和教育辅导中有广泛应用。

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

大模型在数学推理和解答题上表现参差不齐,多数模型在图像识别方面仍存在问题。总体来看,大模型在复杂推理、严谨论证及多步骤计算能力上有较大提升空间。