字节开源视觉-语言多模态大模型,AI理解现实世界的能力越来越强了。

字节开源的Seed1.5-VL是视觉-语言多模态大模型,支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型,已在多个公开基准中表现出色。

7k星星爆火!用微信聊天记录训练一个自己的数字分身回信息,还能克隆声音回复语音消息。

通过微信聊天记录和语音消息,结合大语言模型与语音合成技术,打造高度个性化的数字分身。支持从CSV格式导出聊天数据并训练模型,实现自动回复文字和语音功能。