认知科学归档

大模型再爆弱点！旧记忆忘不掉，新记忆分不出，准确率暴降 ICML’25

2025年7月20日16时作者新智元

！
基于工作记忆的认知测试显示，LLM的上下文检索存在局限。在一项人类稳定保持高正确率的简单检索任务

2025年6月25日23时作者量子位

北大团队揭示GPT-4等模型能超越人类理解组合创造力，提出IEI框架量化评估AI组合创造力能力。研究发现其在创意理解上超过普通人，在深层语义解读上仍逊于专家。

2025年5月27日16时作者 PaperWeekly

信赖，可能远远不够。
你是否知道：
评估一个大模型完整跑完一套标准测试（如 HELM），可能耗时超过