在CPU上运行100B模型只需4MB内存!微软BitNet掀了英伟达的桌子! 上午8时 2025/04/23 作者 PyTorch研习社 微软发布BitNet推理框架,通过三值量化将LLM模型大小瘦身至原来的1/16,在CPU上实现2.37到6.17倍加速,并节能82.2%,甚至可在普通笔记本CPU上运行100B参数级大模型。