Unsloth 发布了 Dynamic v2.0 量化
Unsloth发布Dynamic v2.0量化版本,在MMLU和KL Divergence上表现更好,并修复了Llama.cpp中的问题,同时推出了新量化版本DeepSeek-R1/DeepSeek-V3-0324。
Unsloth发布Dynamic v2.0量化版本,在MMLU和KL Divergence上表现更好,并修复了Llama.cpp中的问题,同时推出了新量化版本DeepSeek-R1/DeepSeek-V3-0324。
,再次刷新行业对开源大模型的认知。该模型在代码生成、多轮对话等任务中展现出了卓越的表现,推理能力更是
来自华为、港大、KAUST和马普所的研究者提出了一种新的稀疏注意力机制——SepLLM,它通过根据原生语义动态划分token数量来显著减少KV缓存使用量,并在免训练、预训练和后训练场景下实现了50%以上的KV缓存减少。
英伟达推出DeepSeek R1在Blackwell架构上的优化,其推理性能提升了25倍,成本降低了20倍。通过使用FP4精度,DeepSeek-R1实现了更低的成本和更高的效率,可能带动API价格大幅下降。
谷歌DeepMind团队提出了一种名为‘可微缓存增强’的技术,该技术通过引入外部协处理器来增强大语言模型(LLMs)的键值(kv)缓存,显著提升了推理性能,并在多个基准测试中提高了准确率和性能。