字节硬核开源ComfyUI批量处理插件,ComfyUI调参效率暴增10倍!
告别繁琐手动试参时代,ComfyUI Lumi Batcher 支持全参数交叉调试、多维结果可视化和多模态支持,大幅提升 AI 创作效率。
告别繁琐手动试参时代,ComfyUI Lumi Batcher 支持全参数交叉调试、多维结果可视化和多模态支持,大幅提升 AI 创作效率。
一款高效的爬虫工具AnyCrawl集成多种引擎支持静态、动态和搜索引擎结果页面抓取,并提供多线程架构、代理支持及LLM优化输出。
中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型,支持文本、图像和语音交互,生成文本和语音回复。其核心在于高效模态对齐技术,仅需少量数据即可训练,并提供无缝的‘边听边看’体验。
谷歌发布开源AI编程工具Gemini CLI,支持命令行终端操作,具备自然语言驱动的复杂任务执行、自主规划与任务分解、多模态AI能力融合等特性。免费套餐包括100万Tokens上下文的大模型使用权限,免费额度为业界天花板级。
Python打包工具PyFuze介绍:兼容macOS、Linux、Windows,提供三种打包模式(Bundle, Online, Portable),支持GUI应用和跨平台运行。主要功能包括自定义入口文件、依赖项管理等。快速使用方法简单,示例涵盖多种场景如内部工具分发、桌面工具打包、离线部署等。
Streaming-Kokoro是一款基于Kokoro-82M模型的开源浏览器TTS工具,支持流式音频生成、多语言语音风格和轻量高效等特点。它完全在本地运行,无需上传数据或服务器端处理,适合各类应用场景。
腾讯AI Lab发布高保真音乐生成模型LeVo,支持中英文歌词生成48kHz立体声音频。通过双轨建模和DPO优化确保音质、指令遵循及风格迁移能力。