移动端大模型推理框架——cactus
这是一个支持C/C++、Dart/Flutter 和 Ts/React-Native 的API框架,使用GGML作为推理后端,并且兼容Llama.cpp模型。目前其在iPhone 16上运行的速度为49 token/s(Gemma3 1B)和16 token/s(Qwen3 4B)。
这是一个支持C/C++、Dart/Flutter 和 Ts/React-Native 的API框架,使用GGML作为推理后端,并且兼容Llama.cpp模型。目前其在iPhone 16上运行的速度为49 token/s(Gemma3 1B)和16 token/s(Qwen3 4B)。