月度归档: 2025 年 4 月
里程碑,GPT-4.5大模型正式通过图灵测试!
加州大学圣迭戈分校的研究学者首次提供了人工系统通过标准三方图灵测试的实证证据。GPT-4.5和LLaMa-3.1在相同提示下被判断为人类的比例分别为73%和56%,显著高于真实人类参与者被选中的比例,表明这些系统已经非常接近人类智能水平。
蚂蚁清华联手放大招!彻底开源RL框架AReaL-boba,人人可复现QwQ
蚂蚁与清华大学联合推出的AReaL开源强化学习框架发布里程碑版本,提供详细的教程和高性能的SGLang框架集成,大幅提升训练速度,并在数学推理能力上达到同尺寸模型的SOTA水平。
开源Flux复现ChatGPT4o的吉卜力风格
ChatGPT 4o上线吉卜力风格功能后不久因版权问题下线,引出开源AI绘画工具门槛的重要性。作者分享了一个使用ComfyUI制作的一键转吉卜力风格的工作流,并提供了所需模型和安装路径。
OpenAI发布AI研究新基准PaperBench,已能复制21%顶会论文!斯坦福研究发现LLM已比人类专家更具科研新颖性
OpenAI发布的PaperBench测评基准测试了AI复现顶级学术论文的能力,Claude 3.5 Sonnet在20篇ICML论文测试中的平均得分为21%,超过了一半的顶会论文。该基准不仅严苛要求,还开源代码鼓励研究者参与。此外,斯坦福大学的研究表明LLM能提出有创意的新想法,但其可行性有待提升。OpenAI研究员Jason Wei认为AI科学创新将有两种风格:专注特定问题或训练通用型AI系统。未来AI在科研领域的潜力巨大,包括辅助和引领重大突破。
无需预对齐即可消除批次效应,东京大学团队开发深度学习框架STAIG,揭示肿瘤微环境中的详细基因信息
团队提出了一种名为 STAIG (基于图像辅助的图对比学习进行空间转录组学分析)的深度学习框架,能够
超越 Manus?华人创业产品 Genspark 推出通用 Agent(附实测效果)
Genspark 推出了通用 Super Agent,并在GAIA Benchmark上超越了Manus。其功能包括旅游规划、短视频生成和视频转PPT等。不过价格不菲且交互设计有待改进。未来通用Agent市场将更加繁荣。
OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!
PaperBench 是由 OpenAI 开发的一个基准测试,用于评估 AI Agent 复现尖端 AI 研究的能力,共包含 8,316 个任务,并通过评分标准进行自动化评估。