一个第三方魔改的DeekSeek模型,省流:性能比V3好,速度比RI快 2025年7月9日8时 作者 NLP工程化 DeepSeek-TNG-R1T2-Chimera 是一种专家混合体语言模型,由三种父模型组装而成,相比前代有更快的推理速度和更好的一致性表现。
接棒DeepSeek!阿里千问宣布开源百万Token上下文模型:主打闪电般的推理「附送详细技术报告」 2025年1月27日8时 作者 AI寒武纪 阿里通义千问团队推出Qwen2.5-1M开源模型,支持百万Token上下文长度,并带来闪电般快速的推理框架。
同济提出简化 Transformer结构:在RTX3090上实现CLIP的轻量级训练 ! 2025年1月14日23时 作者 极市干货 ↑ 点击 蓝字 关注极市平台 作者丨小书童 来源丨集智书童 编辑丨极市平台 极市导读 同济大学提出的