社区供稿 | 阿里国际 Ovis2 系列模型开源: 多模态大语言模型的新突破
Ovis2是阿里巴巴提出的新型多模态大模型架构,显著提升了小规模和大规模模型的能力密度,并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能,并在多个数学推理榜单中排名前列。
Ovis2是阿里巴巴提出的新型多模态大模型架构,显著提升了小规模和大规模模型的能力密度,并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能,并在多个数学推理榜单中排名前列。
最近,DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA(Natively Sparse Attention)通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择,显著提升了长文本处理速度,并在多个任务中超越了传统注意力模型。
半个月前,字节的OmniHuman-1模型在全球掀起波澜。它能通过一张照片和一段音频生成背景动态、支持全身动作的AI视频,并保持口型同步。OmniHuman-1在即梦平台上开放内测,实现一键生成带表演与口型的短视频效果。
MLNLP社区是国内外知名机器学习与自然语言处理社区,致力于促进学术界、产业界和个人间的交流和进步。马斯克表示期待中国在AI领域取得成就,但认为已有公司即将发布更先进的模型。
此应用是一款用于浏览器监控和交互的强大工具,通过Anthropic的模型上下文协议(MCP)捕获并分析浏览器数据。架构包括Chrome扩展程序、节点服务器及MCP服务器三个核心组件。
腾讯AI助手‘腾讯元宝’新增DeepSeek功能,可理解图片信息。教育场景中作业批改时,通用大模型识别率低,与专业软件相比表现不佳。不过在通识知识探索和旅游导游方面,性能较好。