开源
字节跳动发了个新模型:BAGEL-7B-MoT
这是一个混合专家多模态模型,基于Qwen2.5-7B-Instruct和siglip-so400m-14-980-flash-attn2-navit模型微调,并使用FLUX.1-schnell VAE模型,支持视觉理解、文本到图像生成及图像编辑。
微软发布多智能体 Web 操作系统!让 AI 成为真正“可控、协同、透明”的网页执行助手!
微软推出新一代多智能体 Web 操作系统 Magentic-UI,具备自动操作、协同规划与执行等功能,支持网页数据抓取分析、表单填写及代码生成等场景。
llm-d:Kubernetes原生高性能分布式LLM推理框架,助力大规模语言模型推理部署
Kubernetes原生高性能分布式LLM推理框架,提升性能、灵活部署和优化资源利用。相关技术参考及服务内容介绍。
从UI修改到AI提效!前端开发者的开源神器,一键选择网页元素与AI对话!
前端开发工具Stagewise简化了与AI助手的交互,只需点击网页元素即可生成元数据并发送给AI进行修改,支持多种框架。它能减少上下文传递错误和提高效率。
无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具docext
docext是无需OCR的新工具,用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。
自我进化的多智能体自动化系统EvoAgentX
酷是一款多智能体自动化系统EvoAgentX,适用于复杂AI场景如医疗诊断和电商订单处理。它能自动生成工作流并集成进化算法优化智能体行为与结构。文章还介绍了如何安装、配置和使用EvoAgentX进行任务生成及优化。