卡住DeepSeek的脖子,不足为虑~
近期DeepSeek发布的新模型引发国际广泛关注,Amodei分析认为尽管DeepSeek在某些方面接近美国前沿模型,但并未直接威胁其竞争优势;同时强调芯片出口限制对维持美国领先地位的重要性。
近期DeepSeek发布的新模型引发国际广泛关注,Amodei分析认为尽管DeepSeek在某些方面接近美国前沿模型,但并未直接威胁其竞争优势;同时强调芯片出口限制对维持美国领先地位的重要性。
通过系统研究RAG系统的多个关键因素,包括语言模型大小、提示设计、文档块大小等,得出了9条最佳实践,并提出了一系列实验设计以评估RAG系统的性能,涵盖TruthfulQA和MMLU数据集。
DeepSeek开源新一代统一多模态模型Janus-Pro,包含两个尺寸:Janus-Pro-1B和Janus-Pro-7B。该模型在多模态理解和生成方面超越了Meta、Google等知名机构的模型,并改进了训练策略、扩展数据集和扩大模型规模。
今天除夕,阿里千问开源了Qwen2.5-VL模型,包含3B、7B和72B三个尺寸,并具有感知丰富世界、作为视觉Agent、理解长视频和捕捉事件、精准的视觉定位及结构化输出等新特性。
阿里千问开源了Qwen 2.5-1M模型及其对应的推理框架,支持百万Token上下文处理,并分享了训练和推理框架的设计细节及消融实验结果。
中科院提出PPTAgent,一种基于编辑的两阶段PPT生成框架,它通过分析和生成高质量PPT,显著提高了文本、设计和连贯性的评估评分,并在多个领域表现出色。
微软对100多款生成式AI产品进行了红队测试,并分享了八个主要教训和五个案例研究,以指导实际的AI安全测试,包括识别风险、评估大模型聊天机器人的应对能力等。