AI音效90秒长时可控生成!“狼嚎2秒,蟋蟀鸣8秒”精准搞定!清华&生数科技新研究入选ACM MM 2025
文生音频系统FreeAudio实现精确时间控制与90秒长时音频生成,相比现有方法具有显著提升。它无需额外训练即可同时支持时间和长时生成,并在多个指标上优于主流方法。
文生音频系统FreeAudio实现精确时间控制与90秒长时音频生成,相比现有方法具有显著提升。它无需额外训练即可同时支持时间和长时生成,并在多个指标上优于主流方法。
英伟达顶级工程师何宜晖加入xAI,正式发布的新模型Grok-4引发广泛关注。何宜晖此前在英伟达深度参与先进世界模型平台Cosmos的研发,并对Grok-4表现出高度关注。
谷歌DeepMind三位华人核心成员因获得IMO金牌被曝加入Meta。杜宇、Tianhe Yu和王薇月曾负责Gemini模型的思考后训练,谷歌随后挖角微软也宣布从谷歌挖来20多名人才。
阿里通义团队开源Qwen3-Coder,成为国内首个超越闭源Claude Sonnet 4的编程Agent模型。它支持多种上下文长度,并能轻松实现复杂的编程任务如制作简历和扫雷游戏。
美国东北大学和波士顿动力RAI提出HEP框架,让机器人仅凭少量演示便能在复杂场景中高效适应。该框架采用分层结构、空间对称性泛化及体素编码器,显著提升灵活性与效率。
Qwen官方发布了235B参数量的新模型Qwen3,相比Kimi K2提升了基准测试性能,并且不再使用混合思维模式。新模型支持非思考模式,已可以上线网页版使用。
零一万物发布万智2.0版本,推出企业级Agent智能体万仔。强调通过‘一把手工程’推动AI战略转型,并提供五大功能的数字员工解决方案,助力企业提升效率和生产力。