世界首个大规模高质量机器人学习数据集的诞生:具身智能ImageNet时刻
智元科技宣布开源AgiBot World数据集,包含超过百万条真实场景中的原子动作轨迹,适用于机器人学习的研究。该数据集涵盖五大领域,包括灵巧手工具使用、移动物体抓取等复杂任务,并配备六自由度灵巧手和多种传感器。
智元科技宣布开源AgiBot World数据集,包含超过百万条真实场景中的原子动作轨迹,适用于机器人学习的研究。该数据集涵盖五大领域,包括灵巧手工具使用、移动物体抓取等复杂任务,并配备六自由度灵巧手和多种传感器。
美国西北大学工程师团队成功展示了量子隐形传态,该技术允许量子信息与高速互联网信号同时传输在同一光纤电缆上。这项研究简化了量子网络基础设施,并为未来的安全、长距离量子连接奠定了基础。
OpenAI发布文章阐述计划转型为非营利机构以支持其盈利性业务并推进AGI造福人类的使命。新结构将允许公司通过PBC模式筹集资金,确保每个部门各司其职,并且有望成为资源最充足的非营利组织之一。
2024年12月26日,DeepSeek AI发布其最新大型语言模型DeepSeek-V3,每秒处理60个token,采用FP8训练、MoE架构、无辅助损失负载均衡策略和多令牌预测目标等技术。该模型仅花费不到600万美金完成训练,并且支持高效推理与本地部署。
Andrej Karpathy 推荐的文章指出,认知负荷才是软件开发的关键问题。文章强调了减少外在认知负担的重要性,通过简化代码、使用组合而非继承等方式来降低理解成本。
阿里发布QVQ开源模型,能在图片和指令间进行推理。QVQ在视觉推理任务中表现出色,在多项基准测试中获得高分,并且在语言混合、递归推理等方面仍存在局限性。
Meta FAIR 新发布的大型概念模型(LCM)打破了传统语言模型逐词预测的局限,它将句子视为一个概念单元,在句子表征空间中进行建模。LCM的核心组件是SONAR,支持超过200种语言和多模态输入。
纽约大学谢赛宁团队提出研究新视角:视频空间推理。他们构建了一个全新的基准,涵盖多种视觉-空间智能任务,并通过自动化生成的自标注数据测试AI表现。结果显示当前MLLMs在视觉-空间智能上表现不佳,但仍表现出色。