NLP工程化，作者每时AI

24小时，一块GPU，就能训练出顶级语音模型

2025年2月27日16时作者 NLP工程化

本文提出了Slam训练秘诀，在单张GPU和24小时资源限制下高效训练高质量语音语言模型，显著提升AI研究效率。

2025年2月27日16时作者 NLP工程化

Qwen发布了QwQ-Max-Preview模型，该模型基于Qwen2.5-Max推理模型，具有更强的数学理解、编码和代理能力。即将发布QwQ-Max正式版，并在Apache 2.0下开放源代码。

2025年2月27日16时作者 NLP工程化

阿里万相支持消费级GPU生成视频，能生成中英文文本，并开源。

2025年2月27日16时作者 NLP工程化

Claude 3.7 Sonnet 是一款混合推理模型，重点在于减少潜在伤害，通过训练和周边安全系统进行评估。

2025年2月26日8时作者 NLP工程化

本书介绍了多种优化方法及其在工程设计、数学和计算机科学等多个领域的应用，涵盖基础到高级的内容。

2025年2月26日8时作者 NLP工程化

本文提出MLGym框架和基准，评估前沿LLM在AI研究任务上的表现，并强调构建和完善评估体系的重要性。

2025年2月26日8时作者 NLP工程化

为2025年及以后的LLM技术应用提供循序渐进路线图，强调基础理论理解、效率提升和全局性考虑。

2025年2月26日8时作者 NLP工程化

FlashMLA是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，已在多个配置下实现高吞吐量和峰值性能。

2025年2月26日8时作者 NLP工程化

Zotero-arxiv-workflow：为用户自动合并arXiv预印本和期刊发表版本，一键更新最新信息和PDF。

2025年2月26日8时作者 NLP工程化

HeadInfer 是一个内存高效的推理框架，专为大型语言模型设计，通过逐头卸载策略减少 GPU 内存消耗。