Qwen3 8B 的 BitNet 版本
Qwen3-8B-BitNet是基于Qwen3-8B进行微调的模型,使用Prime Intellect的SYNTHETIC-1数据集,并在每个线性层输入中添加RMSNorm,所有线性层已转换为BitNet。该模型大小压缩至2.5B左右。
Qwen3-8B-BitNet是基于Qwen3-8B进行微调的模型,使用Prime Intellect的SYNTHETIC-1数据集,并在每个线性层输入中添加RMSNorm,所有线性层已转换为BitNet。该模型大小压缩至2.5B左右。
DeepSeek-TNG-R1T2-Chimera 是一种专家混合体语言模型,由三种父模型组装而成,相比前代有更快的推理速度和更好的一致性表现。
BitChat 是一款基于蓝牙的去中心化聊天应用,支持iOS/macOS系统。它采用端到端加密、自动中继转发等功能,实现了离线通信和隐私保护,目前已有5.4K Star。
Proactor是世界上第一个自主行动的AI队友,能感知、思考并主动识别谎言或欺骗行为,并提供实时摘要、关键要点和待办事项等服务。它在会议中提供实时分析和建议,适用于销售、招聘、媒体和教育等多个场景。
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。扩散语言模型通过存储和重用先前计算的注意力状态来提升生成速度,但并行解码时往往导致生成质量下降。Fast-dLLM提出基于置信度的平行解码策略来改善这一问题。