学术归档 - 第176页共283页

DeepSeek、OpenAI、Kimi视觉推理哪家强？港中文发布全新推理基准MME-COT

2025年2月28日23时作者 PaperWeekly

多模态大语言模型
论文地址：
https://arxiv.org/pdf/2502.09621
主

2025年2月28日23时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

2025年2月28日23时作者极市干货

该框架通过三阶段网络设计、高效多感受野特征交互模块以及训练测试策略，实现了在分类任务及高分辨率下游任务上的高性能与低效率平衡。

2025年2月28日23时作者 PaperWeekly

和 weak-to-strong generalization 解决超级对齐问题的新范式。
论文标

2025年2月28日16时作者机器之心

Andrej Karpathy发布了一个长达2个多小时的学习视频，介绍了如何使用大型语言模型（LLM），涵盖从基础交互到高级数据分析等多方面内容。

2025年2月28日16时作者机器之心

AIxiv专栏探讨了DataMan数据管理器在优化大语言模型预训练中的应用。该研究提出了一个全面的质量评分体系，用于15个常见应用领域的预训练数据质量评估和领域识别，显著提升了模型性能。

2025年2月28日16时作者机器之心

近日，谷歌发布了一项高难度基准BIG-Bench Extra Hard（BBEH），旨在评估AI模型的高阶推理能力。该基准包含了23个任务，并将每个任务替换为更难的任务，覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格，而其它模型得分不超过10分。

2025年2月28日16时作者机器之心

的爆火震撼 AI 行业后，也带动相关行业余震不断。其中，达摩院玄铁在春节期间宣布适配 DeepSe

2025年2月28日14时作者 GiantPandaCV

非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提

2025年2月28日12时作者机器之心

开始了直播，奥特曼并没有现身。直播不到 15 分钟就匆匆结束了。
OpenAI 正式发布了其最大、