机器之心
声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷
Sesame 发布逼真语音助手 Maya,通过情感智能、上下文记忆和高保真语音生成技术成功跨越了语音恐怖谷效应。CSM-1B 基础模型公开,拥有 10 亿参数规模,并允许商业用途。
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
研究提出块离散去噪扩散语言模型(BD3-LMs),结合扩散和自回归模型的优点,实现任意长度序列生成,并在多个语言建模基准上达到新的SOTA困惑度水平。
AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?
AoT 是 MetaGPT 开源社区的作者团队研发的新模型,由滕枫蔚、吴承霖等人组成。AoT 核心在于利用马尔可夫过程将复杂推理分解为一系列轻量级的‘原子问题’,避免历史信息依赖,提高计算效率。
超级Agent,鸣枪起跑
全新夸克发布AI超级框和超级Agent,用户可以通过它一键完成多种任务,如撰写总结、安排行程等。夸克通过意图理解和自动化调度,将已有工具和服务转化为智能模块,实现灵活执行任务。这是AI应用的一次重大飞跃,即将改变用户的日常体验。
人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板
本文提出VLM²-Bench评测基准,旨在系统探究视觉语言模型在人类级基础视觉线索关联能力上的表现。通过全面考察通用线索、物体线索和人物线索三个大类的基础关联能力,共涵盖9个子任务及3060个测试案例。