ICLR 2025 Oral 训练LLM,不只是多喂数据,PDS框架给出最优控制理论选择

本文通过最优控制理论建立起数据选择与训练动态之间的数学联系,为理解预训练数据的价值提供了理论抓手。这一方向不仅有望替代传统依赖直觉与试验的数据筛选流程,也为未来自动化、可解释的大模型训练打开了新思路。

一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真

机器之心报导,Dia-1.6B 是一个在 GitHub 等平台上走红的开源语音模型,不仅能生成说话的声音、对话,还能合成真实感强的各种声音。其参数量为1.6B,目前已被下载超过5600次,热度排名Hugging Face第二,已收获大量好评和星标。