社区供稿 | MiniMax-01 开源: 新架构开启 Agent 时代

近日,MiniMax 发布了全新系列模型MiniMax-01,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量高达4560亿,可以高效处理全球最长的400万token上下文,并实现了线性注意力机制,性能接近GPT-4。

社区供稿 | 书生·浦语大模型升级,突破思维密度,4T 数据训出高性能模型

上海AI实验室发布的书生·浦语3.0大模型通过数据精炼框架提升了数据效率和思维密度,实现了常规对话与深度思考能力融合。该模型使用4T训练数据达到主流开源模型18T的训练效果,并在多种评测集上性能领先。

自动评估基准 | 基础概念

自动评估基准通常通过数据集和评估指标来测试模型的表现。文章介绍了基础概念、设计评估任务、选择合适的评估指标等方法,并指出了其优势与劣势,包括一致性、成本效益、易于理解以及高质量测试集的特性,但同时也提到复杂任务难以保证效果和数据污染的问题。