递归神经网络的复兴:Mixture-of-Recursions
近期Google DeepMind的研究人员设计了一种能够根据词的重要性调整计算量的语言模型,通过一个轻量级的‘路由器’决定每个词在共享网络模块中的循环次数,显著提高了模型性能和效率。
近期Google DeepMind的研究人员设计了一种能够根据词的重要性调整计算量的语言模型,通过一个轻量级的‘路由器’决定每个词在共享网络模块中的循环次数,显著提高了模型性能和效率。
AI4Research调查旨在提供一个统一的视角并系统地分类AI在研究中的应用。它分为五个关键领域:科学理解、学术调查、科学发现、学术写作和同行评审。
分析Claude Code v1.0.33的逆向工程研究,包括实时Steering机制、多Agent架构、智能上下文管理和工具执行管道等技术发现,为现代AI代理系统设计和实现提供参考(https://github.com/shareAI-lab/analysis_claude_code)
微软微调出高质量合成数据的Phi-4-mini-Flash-Reasoning 3B模型,采用SambaY解码器架构支持64K上下文长度,提供逻辑密集型任务高性能。
多模态作为AAAI 2025的高频词受到广泛关注。即将召开的AAAI 2026会议上又将产生哪些成果?科研之路艰辛,沃恩智慧提供全方位论文辅导服务,助力学员快速发表高质量SCI论文。
近年来语言模型取得了显著进展,主要得益于从特定任务专用模型转向通用的基于强大架构(如Transformer)模型的学习能力。作者之一Albert Gu提出了一种动态分块机制与层级网络相结合的新技术,能够自动学习内容和上下文相关的切分策略,并实现一个完全端到端训练的模型替代传统的分词→语言模型→反分词流水线。
MCP Toolbox for Databases 是一个开源工具箱,简化数据库开发、管理和安全性的复杂问题,通过集中管理工具和共享智能体与应用程序之间的工具,提高开发效率、性能和安全性。
MemOS是首个为AI系统设计的记忆操作系统,它将记忆统一管理成可调度的资源,并支持三种核心记忆类型:明文、激活和参数。MemOS通过三层架构实现高效存储与检索,显著提高语言模型在多跳推理等任务上的性能。
持续强化学习(CRL)作为一种有前景的研究方向,旨在使智能体在动态、多任务环境中持续学习、适应并保留知识。CRL面临的主要挑战包括可塑性、稳定性及可扩展性。文章提出了一种新的分类体系,将CRL方法按照所存储和/或转移的知识类型分为四大类:基于策略的、基于经验的、基于动态的方法和基于奖励的方法。
本公众号介绍了一种基于Qwen2.5VL-3B模型微调的复杂表格解析工具OCRFlux。它支持HTML格式表示复杂表格结构、多列布局处理、跨页表格合并以及多语言文档解析。