FilmAgent:哈工大深圳×清华,AI多智能体框架引领虚拟3D电影制作新纪元
FilmAgent是由哈尔滨工业大学(深圳)与清华大学联合开发的一款基于大型语言模型的多智能体协作框架,用于实现虚拟3D空间中的端到端电影制作自动化。它通过批评-修正-验证和辩论-评判策略优化剧本内容并确定镜头设置。
FilmAgent是由哈尔滨工业大学(深圳)与清华大学联合开发的一款基于大型语言模型的多智能体协作框架,用于实现虚拟3D空间中的端到端电影制作自动化。它通过批评-修正-验证和辩论-评判策略优化剧本内容并确定镜头设置。
一款国产推理加速框架KTransformers介绍,显著提升Hugging Face Transformers的推理速度,支持多种硬件优化策略和接口。
清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目支持DeepSeek-R1和V3的671B满血版运行,显著提高了推理速度,并通过异构计算优化提升了性能。
大语言模型(LLMs)的注意力头功能与工作机制引起了广泛关注。《Attention Heads of Large Language Models》综述论文整合了现有研究,提出四阶段认知框架和详细分类,并梳理实验方法与评估基准,为LLM可解释性研究提供了系统性的理论支持与实践指导。
一位本科生Andrew Krapivin通过研究哈希表,挑战并突破了计算机科学界长达40年的经典猜想。他的研究成果不仅在最坏情况下的查询速度达到(log x)²,还发现非贪婪哈希表的平均查询时间可以实现常数级别,对人工智能和大数据领域具有深远影响。
清华大学提出的新算法Guidance-Free Training(GFT)实现了原生无需引导采样的视觉模型训练,与CFG效果相当但成本减半。GFT简单高效且通用,可广泛应用于多种视觉生成模型。
研究团队通过对比SFT和RL两种方法发现,长CoT的生成需要大量的计算资源。他们提出了四个关键发现:SFT并非必需但能简化训练并提高效率;推理能力随着训练计算增加而出现,但并非总是如此;可验证奖励函数对增长CoT至关重要;基模型中的错误修正等技能需要通过RL有效地激励。
DeepSeek V3 在两个月内迅速成为中国 AI 大模型的代表,并通过开源和亲民的价格策略赢得了广泛的关注。它采用强化学习技术,专注于“深度推理”,并以较低的成本提供了高效的 API 服务。
专注于AIGC领域,介绍了东京大学等联合开发的创新模型EMAGE及其数据集BEAT2。EMAGE能根据音频自动生成连贯动作和表情,与同类模型相比表现更优,并详细描述了其技术机制和应用优势。