多模态AI模型再添猛将！Liquid：字节最新开源的多模态LLM，视觉与语言统一生成！

在多模态大模型（MLLM）竞速赛中，很多模型要么偏理解（看图说话），要么偏生成（画图作诗），更别提两者统一的效率与表现了。

最近，一款由字节跳动、华中科技大学和香港大学等机构联合开源的强大模型：Liquid，以其无缝集成的视觉理解与生成能力惊艳亮相。

它不仅能读懂图片和文字，还能生成图像与文本，且无需外部视觉模型。

Liquid 是一个 7B 参数的多模态大语言模型，基于离散编码技术，将图像转化为与文本一致的 token 序列，从而实现视觉理解、生成和多模态输出的统一处理。

支持任意宽高比图像生成，语言能力与 Llama 3.1 等相当。

主要功能

• 统一模态生成能力：一个模型搞定视觉+语言输入输出
• 强大视觉理解能力：在多项视觉问答、多模态推理任务中表现优异
• 中英文语言稳定：虽是多模态，中英文语言能力仍自然流畅
• 任意宽高比图像支持：适配横屏、竖屏、长图、漫画等生成场景
• 开源HF模型权重：可下载模型本地部署，支持微调

快速使用

Liquid 的本地部署和使用也相对较简单，由于它本质上是一个HuggingFace格式的语言模型，你只需要transformers库和一些基本组件即可运行。

安装步骤如下：

① 下载项目源码

git clone https://github.com/FoundationVision/Liquid.git
cd Liquid

② 安装依赖并执行Gradio演示

pip install gradio==4.44.1
pip install gradio_client==1.3.0

cd evaluation
python app.py

使用-推理测试：

# Engage in pure language dialogue.

python inference_t2t.py  --model_path Junfeng5/Liquid_V1_7B  --prompt  "Write me a poem about Machine Learning."


# image understanding
python inference_i2t.py --model_path Junfeng5/Liquid_V1_7B  --image_path samples/baklava.png   --prompt 'How to make this pastry?'


# image generation, add --load_8bit for GPU with less than 30GB VRAM
python inference_t2i.py   --model_path Junfeng5/Liquid_V1_7B --prompt "young blue dragon with horn lightning in the style of dd fantasy full body"

提示：如果在小于30GB显存的GPU上部署，可能需要在app.py中的AutoModelForCausalLM.from_pretrained中启用load_in_8bit，以避免图像生成时出现内存不足错误。

写在最后

Liquid = 一个模型通吃图像理解 + 图像生成 + 文本生成！

它正在代表一种新趋势：模态打通、结构简化、能力统一。

如果你对多模态 LLM、视觉问答、图文生成感兴趣，Liquid 将是不可错过的开源标杆项目！

GitHub 项目地址：https://github.com/FoundationVision/Liquid
Hugging Face 模型：https://huggingface.co/Junfeng5/Liquid_V1_7B

● 一款改变你视频下载体验的神器：MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐（2023版）

● Star 50.3k！超棒的国产远程桌面开源应用火了！

● 超牛的AI物理引擎项目，刚开源不到一天，就飙升到超9K Star！突破物理仿真极限！

（文：开源星探）

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

主要功能

快速使用

写在最后

发表评论 取消回复

发表评论取消回复