推理能力
字节推豆包1.5深度思考模型,PK阿里QWQ-32、Deepseek R1结果如何?
近日,字节跳动发布豆包1.5深度思考模型,该模型在推理能力、速度和多模态方面实现了突破性升级。其参数量为200B,激活参数仅为20B,具有低延迟(<20ms)的优势。通过多项权威基准测试,该模型在数学推理和编程竞赛方面表现出色,并展示了其对图片的视觉推理能力。
OpenAI轻量级编程AI Agent,硬核开源~
OpenAI发布o3和o4-mini,并开源Codex CLI终端工具。Codex CLI专为习惯使用终端的开发者提供ChatGPT级别推理能力及代码执行功能。该工具现已上线免费体验。
MLNLP学术Talk第三十期 鲍光胜@西湖大学:AI和人类的差异 – 从推理的因果性和生成文本的可检测性看AI和人类的异同
MLNLP学术Talk邀请西湖大学鲍光胜博士分享AI与人类的差异,包括AI推理过程的表面模仿和生成文本的分布差异。报告聚焦大语言模型内在因果图结构、白盒方法检测LLM生成文本等方面。
OpenAI要开源了?真相是→
北京时间4月1日,OpenAI宣布将在未来几个月内发布一个‘强大且具备推理能力的新开放权重模型’,这是GPT-2发布以来的首次新模型计划。尽管OpenAI曾以’开放’命名,但其模型近年来大多采用了封闭策略。此次开放模型旨在为开发者、企业和政府提供更好的部署和使用体验,但仍会保留部分关键组件。
我让最强 AI 推理模型陪我打《王者荣耀》,我这个青铜直接起飞
多个新发布的模型如Qwen、Gemini在推理能力上有所增强,能够处理多模态理解。文章通过打游戏的方式测试了Qwen和Gemini的性能,并讨论了它们在不同场景下的表现及其对未来应用的意义。
Gemini 2.5 Pro真是强到没对手!谷歌不愧为AI黄埔军校!
Gemini 2.5 Pro 是 Gemini 模型的新成员,具备强大的推理、编程能力和多模态任务处理能力。它在多个基准测试中表现出色,并引入了逐步推理机制以提高答案准确性。