清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用 2025年7月7日23时 作者 新智元 FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可
如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践 2025年2月12日23时 作者 机器之心 多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,