破解合规难题,AI高质量数据集建设正当时

阿里开源的Qwen2.5系列训练数据规模达18万亿 token,推动AI大模型发展。但大规模训练带来幻象问题,RAG技术及工业场景应用以数据为中心成为趋势。国家和行业正积极推进数据标注产业发展规范,提升数据标注行业的合规能力。

CVPR 2025 双目匹配新突破!DEFOM-Stereo高效利用单目深度基础模型

本文介绍了一种基于深度基础模型的循环双目匹配框架DEFOM-Stereo,该框架利用Depth Anything V2的强大预训练ViT和随机初始化的CNN构建联合编码器,并设计了用于单目视差初始化、尺度更新的方法。实验结果表明,在仿真域到真实域的零样本泛化上以及在线Benchmark中均表现优异。

也看图结构增强的GraphRAG方案:NodeRAG实现思路解读

今天是2025年4月20日,星期日,北京,晴。文章介绍了NodeRAG优化方案在图维度上的应用及其具体实现细节,包括异构图的定义、节点类型和增强方法,展示了其如何提高检索和理解的精确性和层次化能力,并分析了实际部署时的数据占用情况。

bge-base-en-v1.5微调实战!手把手教你打造垂直领域“最强大脑”,让Embedding模型秒变行业专家!

文章介绍了嵌入微调在RAG系统中的重要性,强调其对于特定领域专业知识的提升作用,并详细说明了数据集构建、损失函数选择和模型训练的方法。