AI聊天应用支持DeepSeek等先进模型HiveChat,实用人体视频抠像框架MatAnyone,HealthGPT医学大模型
本期内容包括HiveChat、MatAnyone、HealthGPT、Minima和Local GRPO Training五个项目,涵盖了AI聊天应用、人体视频抠像框架、医疗大规模视觉语言模型、本地RAG容器以及GRPO策略训练工具。
本期内容包括HiveChat、MatAnyone、HealthGPT、Minima和Local GRPO Training五个项目,涵盖了AI聊天应用、人体视频抠像框架、医疗大规模视觉语言模型、本地RAG容器以及GRPO策略训练工具。
DeepSeek 以创新智能架构和优化策略突破大模型瓶颈,引领AI技术下半场。2月19日CSDN李建忠将带来主题分享,揭开大模型新生态与应用变革的神秘面纱。
这段时间DeepSeek确实火爆,但服务器压力大导致问题频出。推荐两种免费方式:一是通过KTransformers本地部署DeepSeek R1模型;二是直接使用问小白平台,其速度快且功能完善。
腾讯近期内部完成产品及团队调整,包括QQ浏览器、搜狗输入法等转入CSIG(云与智慧产业事业群)。此举意在加强AI产品的布局,尤其是针对办公工具和搜索市场。
DeepSeek提出NSA稀疏注意力机制,显著降低大模型训练成本。实验表明,在64k上下文时,NSA前向传播速度最高提升9倍,反向传播速度提升6倍,解码速度提升11.6倍。论文已在arXiv上发布,梁文锋等DeepSeek原班人马参与。
DeepSeek发布原生稀疏注意力(NSA)机制,在大语言模型处理64k长文本的速度上最高提升11.6倍,并实现性能反超传统全注意力模型。NSA结合算法创新和硬件优化解决了计算瓶颈,有望显著提升未来基座模型的能力。