学术
单个4090就能跑,Mistral开源多模态小模型,开发者:用来构建推理模型足够香
法国AI企业Mistral AI开源了一个24B参数的多模态小模型Mistral Small 3.1,该模型在多个基准上击败了Gemma 3和GPT-4o Mini等同类模型,并且可以在单个RTX 4090或具有32GB RAM的Mac上运行。
Gemini 2.0 原生绘画能力惊艳我了,兑现了我对 GPT-4o 曾经的幻想!
MLNLP社区介绍了谷歌 Gemini 2.0系列模型的原生多模态输出能力,特别是其绘画功能。Gemini 2.0实现了文本与图像的一致生成,并通过多次对话实现复杂场景的精细调整。Gemini 2.0在保持一致性方面表现出色,可应用于电商批量生成图片、产品设计等多个领域。
目标检测技术的发展:从R-CNN、YOLO到DETR、DINO
近些年基于深度学习的目标检测技术迅速发展,从两阶段到一阶段,再到金字塔网络。本训练营将涵盖视觉核心项目:分割和检测的全面细致讲解,并由专家进行实战指导。
ChatGPT创始成员、后训练负责人官宣离职!自立门户并将获OpenAI投资
OpenAI 后训练负责人 William Fedus 离职,他表示希望以合作伙伴身份继续支持 OpenAI AI for Science 领域。Fedus 称未来将创立一家材料科学 AI 初创公司。
模态GAP不存在了?图文领域首个token级大一统基座诞生
CLIP、DINO等图像级监督基座限制了细粒度密集预测任务,上交联合美团提出TokenIT、TokenFD和TokenVL新数据集及模型,实现图文对齐粒度突破。
大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里
复旦大学博士生王鑫的研究成果《CoSER: Coordinating LLM-Based Persona Simulation of Established Roles》提出了一种新的框架来改进角色扮演AI。该研究利用真实数据集和先进的评估方法,包括来自771本知名文学作品的大量角色对话,以及详细的剧情摘要和背景信息。通过给定情境表演(Given-Circumstance Acting)的方法训练模型,并在多智能体模拟和基于惩罚的LLM评判中进行评估,取得了优异的表现。