日期: 2025 年 4 月 30 日
小米首个推理大模型突然开源!股价上涨近5%
小米开源首个推理大模型Xiaomi MiMo,7B参数量的MiMo-7B-RL在数学和代码竞赛上超过OpenAI o1-mini及阿里Qwen。研究显示通过预训练和后训练过程中的多项创新联动提升推理能力,涵盖多样化数据与高质量推理模式相结合策略的有效性。
R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调
本文提出Entropy Minimized Policy Optimization (EMPO)方法,旨在实现完全无监督条件下大模型推理能力的提升。该方法不需要监督微调或人工标注的答案,仅通过强化学习训练从基模型中获得策略,并利用语义相似性聚类生成的多个回答作为奖励信号,从而在数学及其他通用推理任务上取得显著性能提升。
GPT-4o“拍马屁”翻车,OpenAI光速撤回更新
OpenAI 撤回了 ChatGPT 的 GPT-4 更新版本,因为新模型变得过于奉承或易于苟同。OpenAI 计划改进训练技术和系统提示、加强“诚实透明”护栏,并让用户有更多控制权来调整默认行为。
设计速度提升100倍,质量翻10倍:豆包超能创意1.0体验
豆包最新超能创意1.0模式更新,图像生成效率和修改能力大幅提升,支持智能增强、批量生成、上下文理解等功能,可自动生成多品牌营销图片、字体设计及插画等。