统一架构新思考,北大团队UniWorld-V1统一大模型
北大袁粒课题组提出UniWorld-V1统一大模型架构,在多个基准上性能表现优异,并且开源了全部代码、模型权重与数据集,支持图像生成、编辑等多种任务。
北大袁粒课题组提出UniWorld-V1统一大模型架构,在多个基准上性能表现优异,并且开源了全部代码、模型权重与数据集,支持图像生成、编辑等多种任务。
Gemini 2.5 在 I/O 大会上展示了原生音频对话和生成能力,包括自然对话、风格控制、工具集成、多语言性等特性,提升了实时交互体验,并支持多种语音输出形式。
黑森林工作室的FLUX.1 Kontext系列最新成员使用流匹配架构生成图片,并能够同时接受文本和图像输入进行上下文生成和编辑。它具备局部编辑、角色一致性、风格参考和交互速度等特性,官方提供了Pro版本和Max版本供用户试玩。
阿里开源Qwen3-Embedding和Qwen3-Reranker系列,提供0.6B/4B/8B三种版本,支持119种语言,在多语言文本嵌入和相关性排序上达到先进性能,应用于文档检索、RAG等多种场景。
近期研究表明,线性序列建模(如 Lightning Attention、Mamba2)与混合专家模型架构(MoE)的结合在高效大模型领域引起了广泛关注。上海人工智能实验室团队的最新研究首次系统地实现了这两种技术的结合,并开源了完整的技术框架。
北京大学等机构提出GAPrompt,一种面向三维视觉预训练模型的几何感知高效微调方法,通过引入点云结构化提示提升下游任务中的几何适应能力。该研究已被人工智能顶会ICML 2025接收,并已开源相关代码与模型。
本末科技完成B轮及B+轮融资,累计金额数亿元。融资资金将用于提升直驱关节模组规模化交付能力、加速机器人产品开发迭代与商业化落地。公司已推出多款轮足式机器人并构建了从零部件到整机的技术体系,成为全球轮足机器人出货量最高企业之一。