DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA 2024-12-11 作者 新智元 谷歌发布的PaliGemma 2模型在多个视觉语言任务上取得领先成绩,支持多种分辨率和参数规模,并且在OCR、表格识别、乐谱识别及医学报告生成等任务中表现突出。