多模态AI模型再添猛将!Liquid:字节最新开源的多模态LLM,视觉与语言统一生成!

 

在多模态大模型(MLLM)竞速赛中,很多模型要么偏理解(看图说话),要么偏生成(画图作诗),更别提两者统一的效率与表现了。

最近,一款由字节跳动、华中科技大学和香港大学等机构联合开源的强大模型:Liquid,以其无缝集成的视觉理解与生成能力惊艳亮相。

它不仅能读懂图片和文字,还能生成图像与文本,且无需外部视觉模型。

Liquid 是一个 7B 参数的多模态大语言模型,基于离散编码技术,将图像转化为与文本一致的 token 序列,从而实现视觉理解、生成和多模态输出的统一处理。

支持任意宽高比图像生成,语言能力与 Llama 3.1 等相当。

主要功能

  • • 统一模态生成能力:一个模型搞定视觉+语言输入输出
  • • 强大视觉理解能力:在多项视觉问答、多模态推理任务中表现优异
  • • 中英文语言稳定:虽是多模态,中英文语言能力仍自然流畅
  • • 任意宽高比图像支持:适配横屏、竖屏、长图、漫画等生成场景
  • • 开源HF模型权重:可下载模型本地部署,支持微调

快速使用

Liquid 的本地部署和使用也相对较简单,由于它本质上是一个HuggingFace格式的语言模型,你只需要transformers库和一些基本组件即可运行。

安装步骤如下:

① 下载项目源码

git clone https://github.com/FoundationVision/Liquid.git
cd Liquid

② 安装依赖并执行Gradio演示

pip install gradio==4.44.1
pip install gradio_client==1.3.0

cd evaluation
python app.py

使用-推理测试:

# Engage in pure language dialogue.

python inference_t2t.py  --model_path Junfeng5/Liquid_V1_7B  --prompt  "Write me a poem about Machine Learning."


# image understanding
python inference_i2t.py --model_path Junfeng5/Liquid_V1_7B  --image_path samples/baklava.png   --prompt 'How to make this pastry?'


# image generation, add --load_8bit for GPU with less than 30GB VRAM
python inference_t2i.py   --model_path Junfeng5/Liquid_V1_7B --prompt "young blue dragon with horn lightning in the style of dd fantasy full body"  

提示:如果在小于30GB显存的GPU上部署,可能需要在app.py中的AutoModelForCausalLM.from_pretrained中启用load_in_8bit,以避免图像生成时出现内存不足错误。

写在最后

Liquid = 一个模型通吃图像理解 + 图像生成 + 文本生成!

它正在代表一种新趋势:模态打通、结构简化、能力统一。

如果你对多模态 LLM、视觉问答、图文生成感兴趣,Liquid 将是不可错过的开源标杆项目!

GitHub 项目地址:https://github.com/FoundationVision/Liquid
Hugging Face 模型:https://huggingface.co/Junfeng5/Liquid_V1_7B

● 一款改变你视频下载体验的神器:MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

● Star 50.3k!超棒的国产远程桌面开源应用火了!

● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!








(文:开源星探)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往