一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型 下午4时 2025/04/19 作者 机器之心 谷歌更新Gemma 3,通过量化感知训练将27B模型VRAM需求从54GB降至14.1GB,可在消费级GPU上运行。
一文图解大模型量化:量化的目的、内涵及若干实现策略 下午2时 2025/03/04 作者 老刘说NLP 个模型在GPU上运行),GGUF(可能将层卸载到CPU上)又是啥?本质是啥?这些都是困扰已久的问题。