ACL 2025 基于Token预算感知的大模型高效推理技术 上午11时 2025/06/05 作者 机器之心 南京大学等团队提出基于Token预算感知的LLM推理新框架TALE,旨在保证推理准确率的同时显著压缩输出长度、降低计算开销。