月度归档: 2025 年 2 月
打破纪录!谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
谷歌推出WebLI-100B数据集,包含1000亿图像-文本对,显著提升多模态模型的文化多样性和多语言能力。研究发现,虽然CLIP等模型过滤筛选数据的过程可能降低模型的多元性,但更大规模的数据有助于改善模型在文化多样性和语言处理方面的表现。
字节火山引擎谭待隔空回应百度沈抖:少做无端猜测,行业应聚焦基本功|
火山引擎总裁谭待回应百度沈抖关于大模型低价及DeepSeek冲击的观点。谭待表示大模型降价是通过技术创新实现的,并强调应聚焦基本功和创新。豆包1.5Pro模型价格低于DeepSeek,毛利率达到50%以上。