90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!

大语言模型生成10万Token文本,TOKENSWIFT框架将时间缩短至90分钟。该框架通过多Token并行生成、动态KV缓存管理及树结构的多候选Token验证等创新技术,实现了无损加速和文本多样性提升,并在多个规模和架构上进行了测试。

谷歌开源单卡最强多模态模型!分数超满血版DeepSeek V3,一张GPU就能跑

谷歌发布Gemma 3系列模型,参数规模有1B、4B、12B和27B四种,支持超过35种语言。它在知名AI排行榜LMArena上的初步人类偏好评估中优于Llama-405B、DeepSeek-V3和o3-mini。开发者可以通过多种途径访问Gemma 3,并附带改进的代码库进行高效微调。谷歌还推出了Gemma 3学术计划,以加速基于Gemma 3的研究。

上海AI Lab等提出GENOME(+)框架:单卡4090玩转10+大模型的种群进化

上海人工智能实验室联合东北大学提出GENOME(+)框架,创新性地将进化算法引入大语言模型的优化中,无需梯度优化即可实现模型群体动态优化,在多个数据集上表现出明显性能优势。

鸽了两年放大招!稚晖君发布灵犀X2,上演“自行车杂技”+“葡萄缝针”神技,比人还会演

智元 X-Lab 发布灵犀 X2 具身智能机器人,具备运动控制、交互智能等能力。采用强化学习策略和多模态感知模型,实现高效协同作业、任务分解与精细动作序列生成。

CVPR 2025 满分论文!重建 vs 生成:解决扩散模型中的优化难题

本文提出了一种名为VA-VAE的方法,通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐,解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256×256生成任务上取得了最佳性能,FID得分1.35,并在64个epoch内达到2.11的FID得分,显著提升了训练效率。