推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了

DeepMind提出的新进化搜索策略’Mind Evolution’显著提升了大语言模型的推理性能。它结合了遗传算法和LLMs的自然语言能力,无需任务形式化即可处理复杂问题,并且能在规划和推理中实现响应更好、成本更低的效果。

12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究

Google DeepMind联合研究者发现不同模型组的智能体在游戏中表现出不同的合作倾向。Claude与Sonnet偏好合作,而GPT-4o则倾向于自私。实验通过引入惩罚机制来探索模型的合作行为影响。