DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

文章介绍了一个名为”人类的最后考试”(HLE)的新AI基准,旨在评估大规模语言模型的能力。该基准包含3000多个问题,涉及上百个学科领域,要求模型不仅给出正确答案,还需提供合理的推理过程。目前最先进的SOTA模型在HLE上的准确率仍低于10%。

喝点VC|Greylock:我们处于DeepSeek时刻

DeepSeek-R1 的推出标志着开源模型与闭源模型之间的竞争平衡,同时提升了AI基础设施的质量和易用性。它在推理能力方面表现出色,并开启了新的应用领域,如自主AI代理、专业规划系统以及优化的企业人工智能助手等。

从扭秧歌到单脚跳,HugWBC让人形机器人运动天赋觉醒了

AIxiv专栏介绍及其新成果HugWBC控制器,支持机器人同时掌握多种步态及精细调整行为指令,提高运动控制能力。该研究成果在模拟环境中训练,并通过评估验证其有效性。

ScrapeServ:一个自托管的API,输入网址即可获取网页数据和浏览器截图

ScrapeServ:一个自托管的API,能通过输入网址获取网页数据及浏览器截图,支持滚动页面并截取不同区域。它运行在Docker容器中,部署简单,并自动处理302重定向以保证内容完整性。