LLM推理
高效Attention引擎是怎样炼成的?陈天奇团队FlashInfer打响新年第一枪!
FlashInfer论文介绍了高效的注意力引擎技术,利用块稀疏和可组合格式解决KV缓存存储问题,并提供了自定义和负载均衡调度功能。
Agent的亲身经历,从开始到放弃
MLNLP社区介绍其致力于促进国内外机器学习与自然语言处理领域的交流合作。文章分析了做Agent的难度,强调其实际应用中的挑战,并提出微调复杂度高、需要大量数据的问题。最后表达了对当前条件是否适合开展Agent研究的疑问。
FlashInfer论文介绍了高效的注意力引擎技术,利用块稀疏和可组合格式解决KV缓存存储问题,并提供了自定义和负载均衡调度功能。
MLNLP社区介绍其致力于促进国内外机器学习与自然语言处理领域的交流合作。文章分析了做Agent的难度,强调其实际应用中的挑战,并提出微调复杂度高、需要大量数据的问题。最后表达了对当前条件是否适合开展Agent研究的疑问。