多模态
ICLR 2025北京论文分享会启动,一起探讨多模态、Agent等热门话题
大模型时代,ICLR 2025 论文分享会吸引了大量研究机构和高校参会。该活动将设置 Keynote、论文分享、圆桌对话、Poster 展示环节,邀请顶级专家与作者交流热门主题,包括多模态、Agent 等。
给DeepSeek R1换个能看会听的新脑子,纳米AI上线多模态知识库
纳米AI知识库支持多模态(文件、图片、音视频、网页)的知识管理。文章通过长视频、长音频、混合格式文档和各类网页链接的案例,展示了该工具如何帮助用户高效整理和利用各种资料,并支持了多个用户的测试需求。
免费使用!百度重磅发布文心4.5、X1,视频解读+深度思考
专注于AIGC领域的专业社区报道了百度发布的新款大模型文心4.5和X1。文心4.5能高效解读视频内容,而X1则具有自动调用多种工具的能力。两款模型均免费提供使用,并展示了它们在理解和分析新信息方面的强大能力。
Vision-R1:多模态领域的DeepSeek R1-Zero,7B参数比肩OpenAI O1
Vision-R1项目通过两阶段策略解决了多模态推理数据稀缺的问题,提出冷启动初始化和RL训练方案,并创新性地引入PTST策略和HFRRF奖励函数,显著提升了模型在多个数学推理基准测试中的表现。
突发,谷歌多模态Gemma 3开源!
Gemma 3 是一个开源的多模态、多语言 LLM,拥有128k token 的上下文窗口,并提供4种不同大小的模型,支持140多种语言,在LMArena中排名第一。