本地运行大模型的利器:Ollama架构和对话处理流程全解析

Ollama 是一个简便的工具,通过经典的客户端-服务器架构实现快速运行大语言模型。其核心组件包括 ollama-http-server 和 llama.cpp,后者负责加载并运行大语言模型。用户通过命令行与 Ollama 进行对话,处理流程涉及准备阶段和交互式对话阶段。

7k星星爆火!用微信聊天记录训练一个自己的数字分身回信息,还能克隆声音回复语音消息。

通过微信聊天记录和语音消息,结合大语言模型与语音合成技术,打造高度个性化的数字分身。支持从CSV格式导出聊天数据并训练模型,实现自动回复文字和语音功能。

ICLR 2025 告别Token丢弃:更适合CoT和多轮对话的长文本推理加速方法

OmniKV 提出了一种创新性的动态上下文选择方法,用于高效处理长上下文 LLM 推理。它无需丢弃任何 Token,通过动态选择实现计算稀疏,显著提升推理速度和吞吐量,且在各种预算下均优于丢弃 Token 的方法。

开源!使用AI模型控制安卓设备,真正的智能机不只是“Hey Siri”。

今天分享的DroidRun是一个基于大语言模型的开源框架,用于通过自然语言命令控制Android设备。它支持多种LLM,并结合DroidRun Portal应用实现自动化操作,如购物助手、社交媒体发布等。