预训练任务归档 - 每时AI

清华第三代Sage注意力发布！提速5倍，精度不降，训推都能用

2025年7月7日23时作者新智元

FP4量化实现推理加速，比FlashAttention快5倍，同时探索了8比特注意力用于训练任务的可

如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践

2025年2月12日23时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，