LLM推理归档 - 每时AI

ICLR 2025｜Z-Sampling: 让扩散模型在反思中提升采样

2025年2月20日23时作者极市干货

/zhuanlan.zhihu.com/p/24324673054
编辑丨极市平台
极市导读
从理论

2025年1月24日8时作者新智元

FlashInfer论文介绍了高效的注意力引擎技术，利用块稀疏和可组合格式解决KV缓存存储问题，并提供了自定义和负载均衡调度功能。

MLNLP社区介绍其致力于促进国内外机器学习与自然语言处理领域的交流合作。文章分析了做Agent的难度，强调其实际应用中的挑战，并提出微调复杂度高、需要大量数据的问题。最后表达了对当前条件是否适合开展Agent研究的疑问。