本地运行大模型的利器:Ollama架构和对话处理流程全解析

Ollama 是一个简便的工具,通过经典的客户端-服务器架构实现快速运行大语言模型。其核心组件包括 ollama-http-server 和 llama.cpp,后者负责加载并运行大语言模型。用户通过命令行与 Ollama 进行对话,处理流程涉及准备阶段和交互式对话阶段。

突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人

阿里通义实验室高层薄列峰离职,加入某互联网大厂担任多模态模型部副总经理。此前,通义实验室已有两位核心负责人鄢志杰和黄非离职。薄列峰曾带领团队开发了通义App上的爆款功能。

最强开源模型!阿里发布并开源Qwen3,无缝集成思考模式、多语言、便于Agent调用

阿里巴巴发布Qwen3系列模型,包括两个专家混合(MoE)模型和六个Dense模型,并开源了部分权重。该系列在多个基准测试中表现出与OpenAI等顶级模型相当的性能。Qwen3还具有高效的“思考模式”,支持119种语言且训练数据量是Qwen2.5的两倍,有助于Agent调用。部署成本显著降低,整体推理成本也有所节省。