PaperAgent
5500颗星,完全开源的数字人实时交互平台项目
DUIX是硅基智能的AI数字人交互平台,已获5.5k星,支持多方大模型接入及语音识别、合成技术,适用于智能客服等场景,提供一站式多模态实时交互SDK集成方案。
OpenAI轻量级编程AI Agent,硬核开源~
OpenAI发布o3和o4-mini,并开源Codex CLI终端工具。Codex CLI专为习惯使用终端的开发者提供ChatGPT级别推理能力及代码执行功能。该工具现已上线免费体验。
2025年,是时候要拥抱Agent了
2025年,Agent从概念走向商业主流。它是一种自主智能体,具备感知、决策和执行能力,并提供工具调用能力和记忆进化机制。文章推荐开发者参加相关课程,快速了解Agent核心技术原理。
终于等到了,微信聊天记录MCP:Chatlog
Chatlog 是一款聊天记录工具,支持从本地数据库文件获取微信等平台的聊天数据,并提供终端界面、命令行工具及HTTP API服务,用于查询聊天记录、联系人、群聊和最近会话信息,同时也支持与支持MCP协议的AI助手集成。
比R1快8倍,智谱开源GLM-Z1系列,实测 Agentic AI 也能极速深度推理!
智谱发布GLM-4-32B-0414系列模型,包含基座、推理和沉思模型,支持MIT License,并上线MaaS开放平台。其中推理模型GLM-Z1-32B为国内最快的模型之一,适用于不同场景。通过实测及示例展示了其在问答和功能调用应用中的优势。
Meta&谢赛宁版GPT-4o:通过MetaQueries实现统一多模态模型!
统一多模态模型的目标是整合深度理解与丰富的生成能力,MetaQueries采用‘token → [transformer] → [diffusion] → pixels’范式,通过可学习查询和冻结MLLM在保持性能的同时实现图像生成。
开源推理大模型全面开花的一周:多模态、RAG、Agent、编码
热门模型排行榜Top10中出现多款推理大模型,包括代码推理、混合专家视觉-语言模型等。DeepCoder-14B-Preview在LiveCodeBench v5上的准确率提升了8%,仅用140亿参数实现相似性能;Llama-3.1-Nemotron-Ultra-253B-v1基于Meta Llama-3.1-405B-Instruct训练,支持长达128K标记上下文长度。OpenCodeReasoning是最大推理编程合成数据集,用于监督式微调;Kimi-VL-A3B-Thinking在多模态推理和视觉理解方面表现出色;Seed-Thinking-v1.5采用强化学习算法提升模型训练效率。
264页最强 Agents 发展与挑战综述,微软&谷歌&MetaGPT联合出品!
MetaGPT联合多家机构发布《Foundation Agents》报告,概述智能代理的发展与挑战,涵盖模块化架构、脑区功能映射、自我进化机制、协作与进化multi-Agent系统等多方面内容。