字节最新大模型秘籍:只挑能有推理潜力的数据训练!1.3B模型无需标签自动挑选 下午4时 2025/05/15 作者 量子位 字节Seed团队提出AttentionInfluence方法,利用小型预训练模型选择对大语言模型推理能力有显著提升的数据。通过屏蔽关键头部并计算损失差异来评估数据重要性,最终在多个基准测试中提高了模型性能。
OTC‑PO重磅发布 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子! 下午4时 2025/05/07 作者 机器之心 系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,
社区供稿 | 3700 次预训练总结超参规律,开源海量实验,告别盲猜 下午2时 2025/04/17 作者 Hugging Face 参数优化至关重要。为了探究最佳超参数的规律,我们开展了大规模的实证研究,通过在不同配置上进行网格搜索
清华姚班校友等揭Transformer致命缺陷,OpenAI科学家紧急回应:学术界节奏太慢 下午11时 2025/02/10 作者 新智元 前的论文直击大模型死穴——Transformer触及天花板,却引来OpenAI研究科学家的紧急回应。