学术
声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷
Sesame 发布逼真语音助手 Maya,通过情感智能、上下文记忆和高保真语音生成技术成功跨越了语音恐怖谷效应。CSM-1B 基础模型公开,拥有 10 亿参数规模,并允许商业用途。
单卡3090纯视觉玩MineCraft!LS-Imagine在开放世界中基于长短期想象进行强化学习
究方向
|
强化学习、世界模型
LS-Imagine 通过纯视觉观测来玩 Minecraft,仿照人
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
研究提出块离散去噪扩散语言模型(BD3-LMs),结合扩散和自回归模型的优点,实现任意长度序列生成,并在多个语言建模基准上达到新的SOTA困惑度水平。
AAAI 2025 浙大团队提出TechSinger:基于流匹配的技巧可控、多语言歌声合成
本文提出TechSinger,一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统,克服传统方法在可控性和艺术表达上的局限。
AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?
AoT 是 MetaGPT 开源社区的作者团队研发的新模型,由滕枫蔚、吴承霖等人组成。AoT 核心在于利用马尔可夫过程将复杂推理分解为一系列轻量级的‘原子问题’,避免历史信息依赖,提高计算效率。
超级Agent,鸣枪起跑
全新夸克发布AI超级框和超级Agent,用户可以通过它一键完成多种任务,如撰写总结、安排行程等。夸克通过意图理解和自动化调度,将已有工具和服务转化为智能模块,实现灵活执行任务。这是AI应用的一次重大飞跃,即将改变用户的日常体验。
迈向推理时代:大型语言模型的长链推理研究综述
MLNLP社区是一个国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者的交流合作。本文综述了长链推理的研究进展及其关键技术特性,并探讨了其在实际中的应用效果和未来研究方向。