日期: 2025 年 2 月 25 日
Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱!
Anthropic发布了其新模型Claude 3.7 Sonnet,这是一个混合推理模型,具备标准思考和扩展思考模式。它在多个测试中表现出色,并改进了代理训练能力。虽然Claude 3.7 Sonnet在一些指标上不如其他顶级推理模型,但Anthropic强调其在解决GitHub上的实际软件问题方面表现出色,并推出了智能编码工具Claude Code。
微软急刹车,被曝撤掉大波数据中心租赁!DeepSeek冲击,算力泡沫要破?
DeepSeek开源引发微软大规模租赁取消,微软正放缓数据中心投资。OpenAI从微软转向甲骨文合作,微软考虑是否过度建设AI算力。
DeepSeek又又开源了,这次拉爆GPU通信!
网友:突破AI基础设施极限。DeepSeek发布首个用于MoE模型训练和推理的开源EP通信库,支持NVLink和RDMA等硬件,提供高吞吐量且低延迟的全对全GPU内核,加速大规模MoE模型任务。
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
DeepSeek开源第二弹来了!首个用于MoE模型训练和推理的开源EP通信库DeepEP提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度运算包括FP8。性能方面涵盖高效和优化的all-to-all通信、NVLink和RDMA的支持、预填充任务和推理解码任务等。团队建议使用Hopper GPUs及更高版本Python 3.8及以上CUDA 12.3及以上PyTorch 2.1及以上环境,并提供详细的使用指南。
阿里开源推理模型QwQ!可联网搜索,思维链裸奔,开发者玩疯了
阿里通义千问团队推出QwQ-Max-Preview深度思考模型,支持联网搜索,并展示了其在电影评论、代码编写、数学题解答以及游戏开发等方面的超强能力。
阿里旗舰推理模型硬刚DeepSeek!官宣独立APP,发布公告AI亲自写
阿里通义Qwen团队发布Max旗舰版,排名第五的预览版已在LiveCodeBench编程测试中。展示了数学、编程和Agent相关任务的能力,并计划以Apache2.0许可协议开源。公告还透露将发布独立于通义千问APP的Qwen Chat APP,附有8段演示视频展示其能力。