混合推理
终于,它来了!Qwen3深夜发布,再次登顶全球大模型开源王座,再见DeepSeek。
Qwen3今日发布,参数量2350亿的旗舰模型Qwen3-235B-A22B超越多个模型。亮点包括混合思维模式、多语言支持和增强代理能力;预训练数据集涵盖119种语言,计算成本更低;链接见原文。
小而强大,阿里开源全球最强开源模型 Qwen3!
Qwen3 是全球最强开源模型。它在代码、数学、通用能力等基准测试中超越了 DeepSeek-R1 等顶级模型,并且仅需4张H20就能实现本地部署,成本仅为DeepSeek-R1的35%。
重磅!Anthropic 发布新一代混合推理模型Claude 3.7 Sonnet,编程能力再上台阶
Anthropic公司发布了Claude 3.7 Sonnet和Claude Code两个模型,前者具备混合推理能力,后者则是一个面向开发者的智能编码助手。Claude 3.7 Sonnet在编码和前端网页开发方面表现出强大的性能,并能更好地处理复杂的代码库。Claude Code作为命令行工具,简化了开发者的工作流程,能够进行多种编码任务,如编写测试、提交代码等,显著减少了开发时间和工作量。
14G跑满血DeepSeek-R1,清华最新开源力作ktransformers
清华大学开源框架KTransformers研究显示,仅需14GB GPU和382GB DRAM即可本地运行671B参数的DeepSeek-R1模型,并实现约13.69 tokens/s的推理速度。