两阶段训练归档

7B模型对标GPT-4o，全球首个医疗代码生成大模型训练平台来了

2025年7月13日23时作者量子位

需要“又懂医疗又懂编程”的agent。
但像GPT这样现成的大模型难以直接部署，该如何突破技术壁垒？

2025年5月31日23时作者机器之心

言模型的后训练阶段，奖励模型承担着桥接模型行为与人类价值的重要职责；但现有模型往往只给出一个分数，却

2025年1月28日12时作者新智元

新智元报道
编辑：KingHZ Aeneas
【新智元导读】
ETH Zurich等机构提出了推理语