Datawhale

字节 DAPO 技术报告有感！大模型 RL 细节为王

2025年4月1日14时作者 Datawhale

近期，清华发表的DAPO将32b-base做到了AIME 50分的效果。报告中提到动态采样、sft和rl策略对比等方法，并强调了良好流程的重要性。

2025年4月1日14时作者 Datawhale

OpenAI 最新开源大语言模型，包括参数权重；完成400亿美元融资；ChatGPT用户增速创下纪录。这是继GPT-2之后的又一重大动作。

2025年3月31日19时作者 Datawhale

用
于学术分享。
导读：
3月29日，
在2025中关村论坛通用人工智能论坛上，
北京通用人工智能学

2025年3月31日14时作者 Datawhale

篇：
零基础入门：DeepSeek微调教程来了！
前篇：
微调篇「数据集构建」保姆级教程来了！
这次

2025年3月29日19时作者 Datawhale

来方向发表了演讲。
他深入分析了当前
AI
技术，特别是自回归大语言模型存在的根本局限，如“幻觉”问

2025年3月28日14时作者 Datawhale

篇：
零基础入门：DeepSeek微调教程来了！
这次是「数据集构建」保姆级教程第一篇，会持续更新。

2025年3月27日14时作者 Datawhale

Datawhale加入GitCode开源平台，覆盖全球3000多所高校，提供120余门AI开源课程和公益教育项目。

2025年3月27日14时作者 Datawhale

张图解
，探索
LLM Agents
的
主要组件
、
Multi-Agent框架、
以及
MCP

2025年3月26日14时作者 Datawhale

Datawhale联合浙江大学发布DeepSeek通识课，涵盖学术与实践内容，已吸引近千万观众关注。新一期直播将于3月26日启动，提供保姆级教程和系列分享以帮助用户从理解到应用AI技术。

2025年3月26日14时作者 Datawhale

谷歌发布Gemini 2.5 Pro，这是一个能够进行深入思考和推理的强化模型，在多个基准测试中表现出色，并在Arena排行榜上名列前茅。

较早文章

较新文章