Cactus 归档 - 每时AI

移动端大模型推理框架——cactus

2025年6月21日8时作者 NLP工程化

这是一个支持C/C++、Dart/Flutter 和 Ts/React-Native 的API框架，使用GGML作为推理后端，并且兼容Llama.cpp模型。目前其在iPhone 16上运行的速度为49 token/s（Gemma3 1B）和16 token/s（Qwen3 4B）。