开源
无坐标时代来临!微软开源革命性GUI定位神器,注意力机制+多区域预测,适配任意屏幕!
微软开源GUI-Actor无坐标视觉定位工具,通过注意力机制直接识别目标区域,支持网页、桌面和移动端UI,性能媲美甚至超越传统方法。
Torchvista:仅用一行代码即可让 PyTorch 模型变得直观可视化
GitHub 上开源工具 Torchvista 仅用一行代码让 PyTorch 模型可视化,支持交互式图形界面查看模型结构和参数详情。
Morphik:开源多模态检索增强生成工具,助力AI应用开发
Morphik 是一款开源的多模态检索增强生成工具,专为处理高技术性和视觉内容丰富的文档而设计。它通过 ColPali 技术支持文本、PDF、图片等多种格式文件的搜索和处理,并结合知识图谱构建能力提升检索准确性和相关性。
全球首个全栈开源通用AI Agent,从需求规划到结果交付一站式搞定!
Lemon 是一款开源通用智能体,能够自动化完成市场调研、金融分析等复杂任务。它具备自主性,可根据目标独立执行任务,并实时监控进度。支持自定义模型接入和在线模型接入。
vui:小型对话式语音模型,能在本地设备上运行
Vui 是一款能在本地设备上运行的小型对话式语音模型,包含 Vui.BASE、Vui.ABRAHAM 和 Vui.COHOST 三个版本,分别支持单人对话和两人互动,并具备上下文感知能力。
adb-mcp项目通过四层架构可以完全实现AI对Adobe软件的精准操控
ADB-MCP项目通过四层架构实现AI对Adobe软件的精准操控,涵盖AI与MCP服务器交互、Node.js代理服务器中转、Adobe应用插件执行以及软件反馈与闭环机制。
AI驱动的智能交易革命!开源多智能体交易系统,模拟真实团队决策,打造高效精准的股票交易系统!
最近发现一款名为TradingAgents的开源多智能体交易系统,通过模拟真实交易团队分工协作和双模型驱动等特性,在金融投资领域显著优于传统模型。
时隔一年,再次使用7个国产AI大模型写高考作文,国产模型的进步也太大了!有彩蛋。
国产模型在高考作文测试中表现亮眼,KIMI、通义千问等模型的文章字数充足且文采出众。相比去年,进步显著,今年的评分明显提高。
Pixel Reasoner:滑铁卢等高校联合打造的视觉语言模型,用好奇心驱动的强化学习解锁视觉推理新高度!
Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型,通过直接操作视觉输入提升对视觉细节的捕捉能力。它结合指令调优和好奇心驱动的强化学习,在多个视觉推理基准测试中表现出色。