量化感知训练归档 - 每时AI

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

2025年4月19日16时作者机器之心

谷歌更新Gemma 3，通过量化感知训练将27B模型VRAM需求从54GB降至14.1GB，可在消费级GPU上运行。

一文图解大模型量化：量化的目的、内涵及若干实现策略

2025年3月4日14时作者老刘说NLP

个模型在GPU上运行），GGUF（可能将层卸载到CPU上）又是啥？本质是啥？这些都是困扰已久的问题。