极市干货
大模型轻量化系列解读 (七)|厦门大学纪荣嵘团队提出AffineQuant:LLM 的仿射变换量化
eQuant的后训练量化(PTQ)方法,通过引入等价的仿射变换扩展了优化范围,显著降低了量化误差,尤
仅128个token达到ImageNet生成SOTA性能!MAETok:有效的扩散模型的关键是什么?
ETok在仅使用128个token的情况下,于256×256和512×512分辨率的ImageNet
ICLR 2025 高分论文!何恺明和刘壮提出:数据集偏差的十年之战
MIT副教授何恺明的新研究揭示,尽管过去十多年里业界为构建更大、更多样化数据集做了努力,但现代神经网络似乎越来越善于‘识破’并利用这些数据集中潜藏的偏差。此发现引发对消除数据集偏差是否已取得胜利的质疑。
Deepseek R1 Zero成功复现全过程:三阶段RL,Response长度涨幅超50%,涌现语言混杂
u.com/p/21290410831
编辑丨极市平台
极市导读
Deepseek R1 Zero模