移动端大模型推理框架——cactus
这是一个支持C/C++、Dart/Flutter 和 Ts/React-Native 的API框架,使用GGML作为推理后端,并且兼容Llama.cpp模型。目前其在iPhone 16上运行的速度为49 token/s(Gemma3 1B)和16 token/s(Qwen3 4B)。
这是一个支持C/C++、Dart/Flutter 和 Ts/React-Native 的API框架,使用GGML作为推理后端,并且兼容Llama.cpp模型。目前其在iPhone 16上运行的速度为49 token/s(Gemma3 1B)和16 token/s(Qwen3 4B)。
Qwen3 Embedding 提供不同规模的文本嵌入和重排序模型;GUI-Actor 项目实现无需坐标的GUI交互方法;MonkeyOCR 使用结构-识别-关系三元组进行文档解析;Gemini for Claude Code 将Google Gemini模型与Claude Code结合使用,并提供API转换和错误处理功能;CircuitManus 是一个通用的高级异步智能体平台,专注于电路设计并支持跨领域扩展。
Aitrainee介绍并评测了阿里巴巴发布的Qwen3模型系列,包括多种参数规模的MoE和Dense模型,并展示了其在性能、多语言支持和推理预算方面的优势。