月度归档: 2025 年 4 月
MagiAttention:为超长文本和异构数据训练提供线性可扩展的分布式注意力机制
MagiAttention 提供线性可扩展的分布式注意力机制,支持多种注意力掩码类型,性能与Flash-Attention 3相当,实现零冗余通信提升效率。
开源TTS领域迎来重磅新星!Dia-1.6B:超逼真对话生成,开源2天斩获6.5K Star!
由Nari Labs开发的Dia-1.6B因其逼真的对话生成能力而受到关注,仅开源两天便在GitHub收获了6.5K+Star。它支持多角色对话、拟人化表达、零样本声纹克隆等功能,并且运行效率高,音质媲美ElevenLabs和Sesame。
AI 阅读新姿势!支持MCP协议,打通微信读书与 Claude,让你的笔记活起来!
通过微信读书 MCP 服务器项目mcp-server-weread,用户可以实现与AI工具无缝集成,方便管理和分析阅读笔记。
解决Diffusion Transformers优化困境!南京大学与字节等提出DDT:解耦扩散模型
oder Transformer 能否加速收敛并增强样本质量?
>>
加入极市CV技术交流群,走在计
重磅!微软上线GPT-image-1模型,支持高级功能定制
OpenAI发布GPT-image-1模型,微软Azure云服务同步上线。该模型支持深度定制和全网爆火功能,提升图像生成效率和质量。适用于教育、出版和游戏等行业,确保内容合规性和伦理规范。
CVPR’25|CV 微调卷出天际,打破全参数微调性能枷锁!即插即用的提点神器Mona:我小,我强,我省资源
仅调整5%骨干网络参数,Mona方法在实例分割、目标检测等视觉任务中超越全量微调效果,显著降低适配和存储成本。