为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need 下午4时 2025/03/24 作者 机器之心 设计 RLHF 的奖励模型时也是一样。 我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模
首个大模型后训练方法综述 上午8时 2025/03/14 作者 NLP工程化 国内外研究者综述了LLM的后训练方法进展及五种范式(微调、对齐、推理、效率和集成适应),并介绍了相关数据集与应用场景,同时讨论了当前面临的伦理问题及未来方向。
最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025) 下午2时 2025/03/02 作者 Datawhale 性且高性价比的「大型语言模型」(Large Language Model, LLM) — — Dee
2024年度AI报告(五):中国信通院《人工智能发展报告(2024)》深度解读 下午2时 2025/01/01 作者 子非AI 回首2024,我们共同见证了人工智能领域的蓬勃发展,也一同探索了大模型时代的无限可能。感谢每一位读者
用Python实现RLHF奖励模型构建,全方位提升模型表现! 下午10时 2024/12/29 作者 AI技术研习社 从 0 到 1:用 RLHF 和 Python 构建奖励模型,全面提升语言模型能力!
刚刚,OpenAI元老级研究员Alec Radford离职,他主导了GPT-1、GPT-2的研发 下午12时 2024/12/20 作者 机器之心 OpenAI元老级人物Alec Radford即将离职进行独立研究,他在初代GPT、GPT-2及GPT-3等项目中均发挥重要作用。
大模型长文本所面临的主要问题 上午11时 2024/12/05 作者 AI探索时代 大模型在处理长文本时面临输入长度限制、计算资源消耗及上下文保持等问题,提出解决方案包括分段处理、滑动窗口、外部记忆机制等方法。