斯坦福研究:ChatGPT性能,曾出现下降趋势
专注于AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地。斯坦福大学与加州伯克利大学发布的《ChatGPT行为随时间变化》论文详细分析了GPT-3.5和GPT-4的性能波动及其原因,包括指令遵循度的变化、内容过滤能力的下降等问题。
专注于AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地。斯坦福大学与加州伯克利大学发布的《ChatGPT行为随时间变化》论文详细分析了GPT-3.5和GPT-4的性能波动及其原因,包括指令遵循度的变化、内容过滤能力的下降等问题。
清华、复旦等联合提出Eko框架,开发者通过简洁代码和自然语言快速构建虚拟员工,支持浏览器和电脑操作,具备生产级干预机制,实现自动化任务如数据收集、测试和文件管理。
斯坦福大学研究表明,在更换数学题变量名称后,大模型的准确率直线下降。即使是表现最好的o1-preview模型,其准确率也从50%降至33.96%,表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题,为自动化评估提供方法并生成变体数据集。
文章介绍了如何使用AI助手快速高效地处理网页和论文的阅读任务。包括一键摘要、提出关键问题指令等操作,还分享了Srinivasan Keshav教授提出的三遍阅读法来理解和分析专业论文的方法。
最近,《Nature》发布全球AI研究领域TOP100高校榜单。哈佛、斯坦福和麻省理工学院位列前三,美国共有46所大学上榜。清华大学和北京大学分别排名第9和第14位。中国有19所高校上榜,为所有国家中增长速度最快的。
来自多个知名大学和公司的团队推出了Genesis平台,它结合生成式AI与真实世界物理的准确性,提供通用物理引擎、机器人仿真平台等多样的功能。其目标是减少人类在数据生成中的投入,并实现自动化和自给自足的数据生态系统。