AI操控手机神器真的来了!刚刚开源就斩获1.2K Star!让你聊天就能操控手机!
前两天掀起热潮的AI控制手机工具DroidRun已开源,通过自然语言命令实现Android手机自动化操作。支持多个LLM提供商,多设备兼容性强。
前两天掀起热潮的AI控制手机工具DroidRun已开源,通过自然语言命令实现Android手机自动化操作。支持多个LLM提供商,多设备兼容性强。
Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型,能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术,能够实现统一处理图像、文字输入输出,表现出色的视觉理解和强大的图像生成功能。
Ableton发布MCP应用AbletonMCP,利用Claude AI与Ableton Live双向通信,实现音乐制作的‘对话式编曲’,只需简单指令即可完成轨道操作、音效选择等任务。
DroidRun 是一款新的开源 AI 手机操作工具,能像人类一样操作 Android 手机。结合视觉理解与 UI 结构提取技术,实现流畅的交互体验。它不仅能打开 App、发送消息,还能自动导航菜单、处理错误,甚至完成复杂任务如订车或录视频。项目尚未正式开源,但即将上线 GitHub 仓库。
一款名为MiniMind-V的开源模型简化了多模态视觉语言模型(VLM)的训练流程,仅需1小时和不到1.3元的成本即可完成训练。该模型参数量为26M,适合个人开发者从零开始学习,并提供了详细的数据处理、预训练和指令微调代码。
SiteMCP是一款GitHub上的开源工具,一键抓取网站内容并转化为MCP服务器,简化了AI处理网站信息的繁琐步骤,特别适合需要快速获取网站知识的用户。
PDF Document Layout Analysis 是一款开源工具,基于 Vision Grid Transformer 和 LightGBM 架构,能高精度识别 PDF 中的多种元素,并确定其正确顺序。它支持高性能视觉模型和快速轻量级模型选择,同时提供多样化表格提取、公式提取等多种功能,适用于学术/业务类 PDF 处理。
DevDocs 是一款为程序员设计的开源文档爬取和处理工具,能自动爬取、提取并组织技术文档,大幅缩短理解文档所需的时间。它支持智能爬取、内容清洗优化,并内置 MCP 服务器集成 AI 工具。
一款专为教育场景和机器学习训练定制的Versatile-OCR-Program,支持多语言、多模态内容处理,并生成结构化输出。准确率高达90-95%,适用于PDF文档中的文本、数学公式、表格及图表提取。