实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?

春节期间DeepSeek大放异彩,华为将其集成到智能手机,性能有待提升。对比官方应用和ChatGPT,其在道德伦理、逻辑数学方面表现一般,在中文写作任务中表现出色但口语化不足。上下文长度及回答准确性仍需优化。

凑个热闹,测试一波DeepSeek新上的o1推理模型

MLNLP社区介绍了国内涌现的o1模型,并分享了一些测试结果。kimi的k0-math模型在数学和代码方面表现出色,但逻辑推理能力有待提高。社区呼吁开发者积极贡献开源模型,以超越OpenAI的技术水平。