90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!
大语言模型生成10万Token文本,TOKENSWIFT框架将时间缩短至90分钟。该框架通过多Token并行生成、动态KV缓存管理及树结构的多候选Token验证等创新技术,实现了无损加速和文本多样性提升,并在多个规模和架构上进行了测试。
大语言模型生成10万Token文本,TOKENSWIFT框架将时间缩短至90分钟。该框架通过多Token并行生成、动态KV缓存管理及树结构的多候选Token验证等创新技术,实现了无损加速和文本多样性提升,并在多个规模和架构上进行了测试。
谷歌发布Gemma 3系列模型,参数规模有1B、4B、12B和27B四种,支持超过35种语言。它在知名AI排行榜LMArena上的初步人类偏好评估中优于Llama-405B、DeepSeek-V3和o3-mini。开发者可以通过多种途径访问Gemma 3,并附带改进的代码库进行高效微调。谷歌还推出了Gemma 3学术计划,以加速基于Gemma 3的研究。
上海人工智能实验室联合东北大学提出GENOME(+)框架,创新性地将进化算法引入大语言模型的优化中,无需梯度优化即可实现模型群体动态优化,在多个数据集上表现出明显性能优势。
谷歌对人工智能初创公司Anthropic的投资被限制在14%的股份且无投票权。尽管投资巨大(约217亿元),谷歌仍无法获得过多话语权。Amazon则通过多次巨额投资持有Anthropic超过63%的股份。
智元 X-Lab 发布灵犀 X2 具身智能机器人,具备运动控制、交互智能等能力。采用强化学习策略和多模态感知模型,实现高效协同作业、任务分解与精细动作序列生成。
本文提出了一种名为VA-VAE的方法,通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐,解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256×256生成任务上取得了最佳性能,FID得分1.35,并在64个epoch内达到2.11的FID得分,显著提升了训练效率。
大模型时代,百度翻译的新功能AI论文精翻让翻译论文变得简单快捷。不仅能提供精准翻译,还能结合上下文理解语境,提供地道译文,同时保留原版论文的排版风格。