NLP工程化
typed-ffmpeg:为Python开发者提供现代、易用的FFmpeg封装库
typed-ffmpeg是为Python开发者设计的现代、易用的FFmpeg封装库,支持304次提交的滤镜,提供JSON序列化和图形化滤镜图等特性。
盲测击败了ElevenLabs的一款TTS:Chatterbox
Resemble AI 推出免费开源 TTS 模型 Chatterbox,在盲测中击败 ElevenLabs,具备情感控制能力,并支持语音克隆和风格定制。
K8S集群化部署RAGFlow文档
RAGFlow支持通过Kubernetes (K8s)集群化部署,包括主应用、文档引擎(可选)、MinIO、MySQL和Redis等组件,从v0.15.0版本开始提供。
DeepSeek 发布DeepSeek R1-0528
DeepSeek发布R1-0528,显著提升代码生成能力,推理速度和质量提高,性能接近OpenAI的o3等前沿模型,在数学、编程和复杂任务上表现出色。
CoGenAV 的核心理念是让 AI 模型也实现“音画同步”的深度理解
CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征,并通过对比生成同步训练提升模型理解能力,实现‘听清+看懂’多模态理解。