量子位
8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源
港科大Harry Yang团队联合Everlyn AI提出LightGen模型,仅需8张GPU训练即可实现近SOTA的高质量图像生成效果。该模型采用数据蒸馏和直接偏好优化策略,显著降低了数据规模与计算资源需求。
深圳机器人致敬星爷《功夫》,完美复刻斧头帮舞
众擎机器人PM01和SE01凭借灵活度高的特性火出圈,其全身总自由度超过23个,腰部旋转角度超过300°。这两款机器人的跑步、前空翻等动作都酷似人类,并且在外观和功能上各有特色,售价分别为8.8万元和55公斤的SE01机器人。
新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍
前苹果ASIC架构师Nils Graef与UC伯克利本科生Andrew Wasielewski提出Slim Attention,通过只存储K而不直接存储V实现更少的内存占用和更高精度。
李开复力推DeepSeek!零一万物发布模型一体机,搭载华为GPU,自家产品也全线替换了
零一万物发布万智企业大模型一站式平台,支持企业快速部署和应用DeepSeek模型。该平台提供一体机部署方案、集成API应用及行业定制服务,助力企业从通用大模型转向实际应用场景。
CVPR’25跨模态因果对齐,让机器更懂视觉证据丨中大南洋理工等联合开源
来自中山大学、新加坡南洋理工大学等团队提出跨模态因果对齐框架(CRA),通过抑制噪声、特征对齐和因果关系建模三个模块优化视频问答定位任务,显著提升模型的时空定位能力和因果推理准确性。
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单
小米大模型团队通过微调阿里Qwen2-Audio-7B模型,结合DeepSeek-R1的GRPO算法,在MMAU评测集上实现了64.5%的准确率,显著提升31%,接近人类专家水平。
百度版深度思考模型免费上线!API定价比DeepSeek R1再砍一半
百度发布两款全新文心大模型,文心大模型4.5主打原生多模态;文心大模型X1是百度版深度思考模型,具备更强的理解、规划、反思和进化能力。两款大模型已同步上线并开放免费API调用,且价格约为DeepSeek R1的一半。