在多模态大模型(MLLM)竞速赛中,很多模型要么偏理解(看图说话),要么偏生成(画图作诗),更别提两者统一的效率与表现了。
最近,一款由字节跳动、华中科技大学和香港大学等机构联合开源的强大模型:Liquid,以其无缝集成的视觉理解与生成能力惊艳亮相。

它不仅能读懂图片和文字,还能生成图像与文本,且无需外部视觉模型。
Liquid 是一个 7B 参数的多模态大语言模型,基于离散编码技术,将图像转化为与文本一致的 token 序列,从而实现视觉理解、生成和多模态输出的统一处理。
支持任意宽高比图像生成,语言能力与 Llama 3.1 等相当。
主要功能
-
• 统一模态生成能力:一个模型搞定视觉+语言输入输出 -
• 强大视觉理解能力:在多项视觉问答、多模态推理任务中表现优异 -
• 中英文语言稳定:虽是多模态,中英文语言能力仍自然流畅 -
• 任意宽高比图像支持:适配横屏、竖屏、长图、漫画等生成场景 -
• 开源HF模型权重:可下载模型本地部署,支持微调
快速使用
Liquid 的本地部署和使用也相对较简单,由于它本质上是一个HuggingFace格式的语言模型,你只需要transformers库和一些基本组件即可运行。
安装步骤如下:
① 下载项目源码
git clone https://github.com/FoundationVision/Liquid.git
cd Liquid
② 安装依赖并执行Gradio演示
pip install gradio==4.44.1
pip install gradio_client==1.3.0
cd evaluation
python app.py
使用-推理测试:
# Engage in pure language dialogue.
python inference_t2t.py --model_path Junfeng5/Liquid_V1_7B --prompt "Write me a poem about Machine Learning."
# image understanding
python inference_i2t.py --model_path Junfeng5/Liquid_V1_7B --image_path samples/baklava.png --prompt 'How to make this pastry?'
# image generation, add --load_8bit for GPU with less than 30GB VRAM
python inference_t2i.py --model_path Junfeng5/Liquid_V1_7B --prompt "young blue dragon with horn lightning in the style of dd fantasy full body"
提示:如果在小于30GB显存的GPU上部署,可能需要在app.py中的AutoModelForCausalLM.from_pretrained中启用load_in_8bit,以避免图像生成时出现内存不足错误。
写在最后
Liquid = 一个模型通吃图像理解 + 图像生成 + 文本生成!
它正在代表一种新趋势:模态打通、结构简化、能力统一。
如果你对多模态 LLM、视觉问答、图文生成感兴趣,Liquid 将是不可错过的开源标杆项目!
GitHub 项目地址:https://github.com/FoundationVision/Liquid
Hugging Face 模型:https://huggingface.co/Junfeng5/Liquid_V1_7B

● 一款改变你视频下载体验的神器:MediaGo
● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star
● 最新最全 VSCODE 插件推荐(2023版)
● Star 50.3k!超棒的国产远程桌面开源应用火了!
● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!

(文:开源星探)