字节 DAPO 技术报告有感!大模型 RL 细节为王
近期,清华发表的DAPO将32b-base做到了AIME 50分的效果。报告中提到动态采样、sft和rl策略对比等方法,并强调了良好流程的重要性。
近期,清华发表的DAPO将32b-base做到了AIME 50分的效果。报告中提到动态采样、sft和rl策略对比等方法,并强调了良好流程的重要性。
OpenAI 最新开源大语言模型,包括参数权重;完成400亿美元融资;ChatGPT用户增速创下纪录。这是继GPT-2之后的又一重大动作。
Datawhale联合浙江大学发布DeepSeek通识课,涵盖学术与实践内容,已吸引近千万观众关注。新一期直播将于3月26日启动,提供保姆级教程和系列分享以帮助用户从理解到应用AI技术。
谷歌发布Gemini 2.5 Pro,这是一个能够进行深入思考和推理的强化模型,在多个基准测试中表现出色,并在Arena排行榜上名列前茅。