字节开源 InfiniteYou:灵活且高保真的人像再创作技术,微软Playwright MCP:进行快速可靠的网页自动化操作

InfiniteYou利用Diffusion Transformer实现高保真、个性化图像生成与编辑;pdf-craft能将扫描书籍PDF转换为Markdown和EPUB格式;Playwright MCP通过结构化数据让大型语言模型进行网页自动化操作;Oliva Multi-Agent Assistant利用Langchain和Superlinked在Qdrant数据库中查找产品并提供多智能体助手支持;AI有声书自动化生成工具利用大模型(如Gemini)自动转化为有声书。

OpenAI 发布新一代音频模型 API:打造更智能的语音助手

2025年3月,OpenAI发布新一代音频模型API,包括改进的语音转文本和文本转语音模型。新模型在准确性和噪声消除方面表现出色,并提供更强的可控性定制选项。开发者可通过API和集成的Agent SDK轻松访问这些功能。

Orpheus 3B – 高质量、情感丰富的文本转语音,技术面试中提供编码问题实时 AI 辅助的工具,

Orpheus TTS 提供语音克隆、情感控制和低延迟功能的开源 TTS 系统。CrackCode 是一款隐蔽的 AI 面试助手。Claude Code but with OpenAI Models 使用 OpenAI 模型提供实时代码建议。Local Whisper 实现本地实时语音转录,YT Navigator 是一个高效的 YouTube 内容搜索工具。

又一个开源Manus框架这次全后端都开源,腾讯重磅升级开源 3D 模型3D 2.0 MV(多视图生成)和 3D 2.0 Mini

LangManus 是一款基于社区驱动的AI自动化框架,整合语言模型和专业工具,提供多智能体架构、强大LLM集成、丰富的工具集等特性。SmartRead 是一款自动注释技术PDF的AI工具,而Docs是一款开源协作文档编辑器。

SmolDocling-256M多模态OCR识别,用于治疗推理的智能体TxAgent,

SmolDocling-256M-preview高效文档转换模型,支持多种元素识别和转换。OpenSearch-SQL无需额外训练提升文本到SQL生成准确性。MarkPDFDown精准将PDF转为Markdown格式。TxAgent利用多步骤推理提供个性化治疗方案。RDAgent自动化数据驱动研发流程,加速创新研究。

清华团队开源“赤兔Chitu”大模型推理引擎–推理成本降一半,性能翻番,GOOGLE快速深度研究报告生成工具

清华大学高性能计算研究所开源高性能大模型推理框架Chitu,实现国产AI芯片原生运行FP8精度模型。Gemini 2.0 Flash Image Generation and Editing利用Google Gemini 2.0 Flash生成和编辑图像。Deep Research快速生成深度研究报告,注重用户隐私本地存储数据。Xata Agent作为PostgreSQL数据库监控的开源AI助手。Agentic Radar用于扫描和分析Agentic系统安全性,识别漏洞并生成报告。

免费使用google Deep Research,Gemini 助手一系列重大升级

Google AI Studio中的Gemini 2.0 Flash实验性功能支持原生图像生成和多模态对话式编辑。它能根据用户故事描述生成插图,并且允许通过多轮对话来修改图像细节,同时还提供个性化的AI研究助手Deep Research。

港大开源论文AI撰写工具AI-Researcher,Gemma 3发布评测性能超越DeepSeek-V3部署成本少10倍

ini 2.0研发的轻量级开源模型系列,可在单GPU或TPU上运行,性能强大。
Gemma 3 是

刚刚OpenAI发布Agents SDK,Claude Pro的编程助手,Cloudflare也开源构建智 Agents框架

OpenAI发布了多智能体工作流框架OpenAI Agents SDK及其示例应用Computer Using Agent Sample App。Anus是一个开源AI代理框架,旨在通过自动化任务革新AI应用程序的开发和使用。Cloudflare Agents提供状态管理和实时通信等功能。