每日AI新工具，作者每时AI

字节开源 InfiniteYou：灵活且高保真的人像再创作技术，微软Playwright MCP：进行快速可靠的网页自动化操作

2025年3月24日11时作者每日AI新工具

InfiniteYou利用Diffusion Transformer实现高保真、个性化图像生成与编辑；pdf-craft能将扫描书籍PDF转换为Markdown和EPUB格式；Playwright MCP通过结构化数据让大型语言模型进行网页自动化操作；Oliva Multi-Agent Assistant利用Langchain和Superlinked在Qdrant数据库中查找产品并提供多智能体助手支持；AI有声书自动化生成工具利用大模型（如Gemini）自动转化为有声书。

OpenAI 发布新一代音频模型 API：打造更智能的语音助手

2025年3月21日11时作者每日AI新工具

2025年3月，OpenAI发布新一代音频模型API，包括改进的语音转文本和文本转语音模型。新模型在准确性和噪声消除方面表现出色，并提供更强的可控性定制选项。开发者可通过API和集成的Agent SDK轻松访问这些功能。

Orpheus 3B – 高质量、情感丰富的文本转语音，技术面试中提供编码问题实时 AI 辅助的工具，

2025年3月20日11时作者每日AI新工具

Orpheus TTS 提供语音克隆、情感控制和低延迟功能的开源 TTS 系统。CrackCode 是一款隐蔽的 AI 面试助手。Claude Code but with OpenAI Models 使用 OpenAI 模型提供实时代码建议。Local Whisper 实现本地实时语音转录，YT Navigator 是一个高效的 YouTube 内容搜索工具。

又一个开源Manus框架这次全后端都开源，腾讯重磅升级开源 3D 模型3D 2.0 MV（多视图生成）和 3D 2.0 Mini

2025年3月19日11时作者每日AI新工具

LangManus 是一款基于社区驱动的AI自动化框架，整合语言模型和专业工具，提供多智能体架构、强大LLM集成、丰富的工具集等特性。SmartRead 是一款自动注释技术PDF的AI工具，而Docs是一款开源协作文档编辑器。

SmolDocling-256M多模态OCR识别，用于治疗推理的智能体TxAgent，

2025年3月18日11时作者每日AI新工具

SmolDocling-256M-preview高效文档转换模型，支持多种元素识别和转换。OpenSearch-SQL无需额外训练提升文本到SQL生成准确性。MarkPDFDown精准将PDF转为Markdown格式。TxAgent利用多步骤推理提供个性化治疗方案。RDAgent自动化数据驱动研发流程，加速创新研究。

清华团队开源“赤兔Chitu”大模型推理引擎–推理成本降一半，性能翻番，GOOGLE快速深度研究报告生成工具

2025年3月17日11时作者每日AI新工具

清华大学高性能计算研究所开源高性能大模型推理框架Chitu，实现国产AI芯片原生运行FP8精度模型。Gemini 2.0 Flash Image Generation and Editing利用Google Gemini 2.0 Flash生成和编辑图像。Deep Research快速生成深度研究报告，注重用户隐私本地存储数据。Xata Agent作为PostgreSQL数据库监控的开源AI助手。Agentic Radar用于扫描和分析Agentic系统安全性，识别漏洞并生成报告。