Kimi首次开源了其一个16B参数的MoE模型:Moonlight-16B
Kimi开源Moonlight-16B模型,参数量16B,激活3B,性能优于LLAMA、Qwen和Deepseek-v2-Lite,在英文和中文能力上表现优异。
Kimi开源Moonlight-16B模型,参数量16B,激活3B,性能优于LLAMA、Qwen和Deepseek-v2-Lite,在英文和中文能力上表现优异。
AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。
月之暗面Kimi因DeepSeek热潮暂缓‘烧钱’投放。近期大模型六小虎中有五家公司减少或暂停广告投放。月之暗面对推广动作进行相应调整,并推出新模型Kimi Latest,聚焦长文本输入与上下文长度控制。
理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1,效果追评甚
蛇年除夕,HyperAI超神经测评了Kimi、豆包、文心一言、DeepSeek和ChatGPT等大模型写春联的能力。测试涵盖主题春联、藏头春联及整活春联三类。结果显示,各模型对生肖“蛇”的表达不一,内容多以传统为主,部分模型在融入网络热梗方面有所欠缺。
国内首个全场景深度思考模型Baichuan-M1-preview发布,并开源了行业首个开源医疗增强大模型Baichuan-14B-M1,该模型在通用和医疗领域表现出色,具备语言、视觉和搜索能力。