深度求索(DeepSeek)是一家由浙大校友梁文峰创立的中国领先人工智能公司,其前身是对冲基金幻方的AI研究部门。凭借创新性的发展模式和技术成果,DeepSeek吸引了全球的目光。尽管在硬件出口限制等挑战下,其高效模型屡次跻身国际排行榜前十。尤其是V3模型,在训练中仅使用了2000多块英伟达芯片,效率远超西方同类产品。2025年1月,公司推出了推理模型R1,即使未经行业标准微调,其性能已接近OpenAI的o1模型。
一、Deepseek模型的回应
文件中提到的关于 DeepSeek 和 AI 大模型 的一些事实和观点。以下是对这些观点的分析和评价:
关于事实部分
-
DeepSeek 不是套壳或蒸馏美国的大模型
-
核心架构基于 Transformer,并进行了创新和工艺提升
-
训练成本并非宣传中的 550 万美元
文件中明确指出 DeepSeek 不是套壳或蒸馏模型,而是基于 Transformer 架构进行了创新。这一点是可信的,尤其是文件中提到的技术细节(如 MoE、MLA、MTP 等)表明 DeepSeek 在架构和工程上进行了自主研发和优化。
文件中提到的技术细节(如 MoE、MLA、MTP、CoT 等)都是当前 AI 领域的前沿技术,且 DeepSeek 在工程实现上进行了优化。这些创新是合理的,尤其是在大模型训练和推理效率方面,确实需要结合多种技术手段来提升性能。
文件中提到 DeepSeek 的训练成本被宣传为 550 万美元,但作者认为这种比较不够准确,因为前沿探路和算力成本的下降都会影响成本统计。这一点是合理的,尤其是在 AI 领域,训练成本的计算口径和实际投入的差异较大,不能简单地进行横向比较。
关于观点部分
-
DeepSeek 代表开源对闭源的胜利
-
OpenAI 的路径简单粗暴,但未来可能再次拉开差距
-
DeepSeek 让开源模型与闭源模型一样好
-
基础大模型终将商品化
-
对算力的需求不会下降
-
对数据的需求不会降低
这一观点有一定道理。开源模型(如 Meta 的 LLaMA 系列)确实在推动 AI 社区的繁荣,而 DeepSeek 作为开源模型的一部分,可能会进一步推动开源生态的发展。然而,开源和闭源的竞争是长期的,闭源模型(如 OpenAI 的 GPT 系列)在商业化应用和前沿探索上仍然具有优势。
这一观点是合理的。OpenAI 的“大力出奇迹”策略(通过大规模算力和数据投入)确实取得了显著成果,但随着技术的进步,开源模型可能会逐渐缩小差距。不过,OpenAI 在商业化应用和前沿探索上的优势仍然存在,未来是否再次拉开差距取决于技术进步的速度和方向。
这一观点有一定道理,但需要谨慎看待。开源模型(如 DeepSeek)在性能和效率上确实取得了显著进展,但闭源模型在商业化应用和前沿探索上仍然具有优势。开源模型的优势在于可定制性和私有部署,但在某些复杂任务上,闭源模型可能仍然表现更好。
这一观点是合理的。随着技术的成熟,基础大模型可能会逐渐商品化,竞争的重点将转向如何将模型与具体应用场景结合(toB 领域)以及如何获取流量入口(toC 领域)。这也是当前 AI 产业发展的趋势。
这一观点是合理的。随着模型规模的扩大和应用场景的复杂化,对算力的需求只会增加。类似 Jevons 悖论,效率的提高可能会进一步推动算力需求的增长。
这一观点是合理的。数据是 AI 模型的“燃料”,随着算法的进步,对高质量数据的需求只会增加。尤其是在复杂任务和长尾场景中,数据的重要性更加凸显。
总结:
文件中的观点大部分是合理的,尤其是在技术细节和行业趋势的分析上,反映了当前 AI 领域的一些重要动态。然而,需要注意的是,AI 领域的发展速度非常快,未来的竞争格局可能会发生变化。开源和闭源的竞争、算力和数据的需求、以及模型商品化的趋势,都是当前 AI 产业的核心议题。
二、OpenAI模型的回应
文件内容提到了一些关于 DeepSeek 的技术特点和市场影响的观点。以下是对主要观点的分析:
技术层面
-
创新与优化
-
训练成本
-
不依赖监督微调(SFT)
观点:DeepSeek 使用了混合专家模型(MoE)、多头潜注意力(MLA)等技术,提升了效率和推理能力。
分析:这些技术在学术界确实已有相关研究支持,例如 MoE 和 MLA 能显著提升大规模模型的效率,但需要高水平的工程优化。DeepSeek在多个层面进行了整合和优化,这是一种非常实用的创新策略。
观点:DeepSeek 将成本压缩到 1/3,是 OpenAI 成本的 1/20。
分析:相比 Meta 和 OpenAI 的探索性尝试,后发模型确实可以通过吸取经验降低成本。不过,具体成本对比可能受统计口径和硬件成本下降影响,应谨慎对待绝对值的比较。
观点:强化学习(RL)被用于训练 R1-Zero 模型,探索模型自主推演能力。
分析:RL 已被证明在强化推理和策略制定中有效,但完全不依赖 SFT 可能会影响特定任务的性能。此举更像是一种研究尝试。
市场层面
-
开源胜利
-
算力与数据需求
-
模型商品化
观点:DeepSeek 展示了开源的优势,并可能推动开源模型的繁荣。
分析:开源社区的协作性确实是快速改进模型的重要力量,但也需注意开源与闭源模型在安全性、质量控制方面的权衡。
观点:算力和数据需求不会降低,反而可能持续增长。
分析:这与实际趋势一致。算力与数据在 AI 模型中的重要性不会降低,尤其是随着模型规模和应用场景的扩展。
观点:基础模型将逐渐商品化,toB 领域关注生产效率,toC 领域关注流量入口。
分析:此观点与行业趋势一致。AI 应用的核心竞争力正在从基础模型转向行业定制化和实际落地能力。
结论
大部分观点是基于当前学术研究和产业实践得出的,具有一定的可信度。不过:
-
训练成本对比需谨慎解读,因为统计口径差异较大。
-
不依赖监督微调的训练方法虽然有研究价值,但在实际应用中可能存在局限性。
三、全文总结
综上所述,无论是Deepseek还是OpenAI两家大模型都认同,DeepSeek 通过创新技术和工程优化,在开源大模型领域取得了显著进展,并在成本、效率以及技术开放性上展示了独特的优势。然而,开源与闭源的竞争并非一朝一夕能够分出胜负,未来的格局将取决于技术进步、商业化能力以及行业应用的落地速度。
展望2025,基础大模型的商品化趋势将加速,竞争焦点将从模型本身转向应用场景的深度结合与服务模式的创新。同时,算力与数据需求的增长将继续推动产业变革,对资源整合与创新能力提出更高要求。可以预见,AI 的未来不仅属于技术领先者,也属于能够有效平衡技术、商业与生态的开拓者。
硅谷科技评论(SVTR.AI),在ChatGPT问世之际,创立于美国硅谷,依托#AI创投库、#AI创投会、#AI创投营 和风险投资,打造全球前沿科技(AI)创新生态系统。联系凯瑞(pkcapital2023),加入我们,共创未来。点击文末阅读原文,访问SVTR.AI,发现更多机会与内容!
Startup
+
11x.ai:AI虚拟销售员,半年内突破200万美元 |
AlphaSense,金融界的“谷歌” |
AMP Robotics,如何用AI拯救垃圾场? |
Anduril Industries:AI 重新定义现代战争与和平 |
Anthropic:OpenAI”宫斗”背后的公司 |
Bardeen:让AI代理更稳更快 |
Brightwave,AI驱动的投研助手 |
Calendly:日程安排助手,AI效率工具鼻祖 |
Canva:从Adobe、Figma、Canva 到 OpenAI |
Carta:想要取代纽交所的股权管理工具 |
Cerebras,打造世界最大芯片挑战AI霸主英伟达 |
Cohere:为企业提供大模型 |
Consensus:用AI解锁学术 |
CoreWeave:GPU租赁独角兽,英伟达的好盟友 |
Databricks:从数据湖到大模型丨人工智能战略 |
DeepL:从机器翻译到AI写作的语言沟通利器 |
Discord:腾讯多次押注,打造属于你自己的线上互动社区 |
DoNotPay:世界首款AI机器人律师 |
Duolingo:如何改写语言学习 |
E2B:为 AI 代理构建自动化云平台 |
Figma:从Adobe、Figma、Canva 到 OpenAI |
Figure,从体力劳动中解放全人类 |
Glean:重塑知识工作的未来 |
Grammarly:从论文查重到AI写作的沟通利器 |
Helion,AI的终极能源梦想 |
Hippocratic AI,用AI缓解全球医护人员短缺 |
Hugging Face:开源AI的未来 |
Jenni AI:如何通过AI写作实现年入千万 |
Letta:AI代理技术栈市场地图 |
Marblism:一句AI提示词自动生成各类软件 |
Midjourney:0融资,11人,$1亿收入 |
Mistral,欧洲大模型,性价比之王 |
MultiOn,用人工智能代理给软件装上大脑 |
Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生 |
OpenAI:人工智能突破的前沿丨员工丨董事会丨营销丨GPT Store丨奥特曼丨马斯克丨微软丨产品生态 |
Pika:AI视频的未来 |
Rad AI:如何用 AI 改变医疗保健 |
Reddit:奥特曼押注基于兴趣社交的美版“贴吧” |
Replicate:1人AI公司背后的幕后英雄 |
Replite:教马斯克的儿子如何写代码 |
Rows:一年内用户增长20倍背后的故事 |
Perplexity:挑战谷歌,站在AI搜索最前沿 |
Runway:AI视频的未来 |
Scale AI:如何成为数字世界的“水源” |
Shein:打造下一个“中国首富” |
Skild AI,打造通用机器人“大脑 |
SpaceX:梦想照进现实,人类星际生命的曙光 |
Stability AI:SD 背后的公司和创始人 |
Stripe:马斯克和奥特曼押注的支付王者 |
Substack:美版公众号,为价值付费 |
Superhuman:邮件超人,拥抱 AI |
Telegram,俄罗斯兄弟的密聊纸飞机 |
Vannevar Labs:AI+国防,军事人工智能掘金者 |
Vercel,如何用AI引领技术开发? |
Zapier:ChatGPT最受欢迎插件的过去和未来 |
People(找人) |
如何找到创业合伙人丨如何聘请CEO丨如何确定CEO的薪水丨如何分配股权和头衔丨如何组建和召开董事会丨选择自己的创业导师 丨找这种人实现快速裂变丨如何找到那个“改变命运”的第一位员工? |
Funding(找钱) |
如何写商业计划书丨初创公司估值丨如何做电梯演讲丨如何确认真实投资意愿丨如何选择VC丨早期融资的“科学”与策略丨初创公司的融资生存法则丨风险投资人最关心的一个指标丨“七条法则”让投资人主动“敲门” |
Vision(找方向) |
性格决定创业成败丨如何成为亿万富翁丨如何做出困难的决定丨如何寻找创业方向丨如何在海外启动新产品丨GTM指南丨不要像投资人那样思考丨创始人与市场契合度丨为什么初创公司会失败丨什么决定创业成败丨如何建立社交媒体形象丨PMF决定初创的未来丨创始人的必读书单丨 5 点创业洞见丨如何做增长 |
AI创业 |
如何打造AI驱动的公司丨AI创业如何选赛道丨如何打造AI软件产品丨AI公司要不要融资丨AI初创公司商业模式丨AI原生公司定价策略丨AI初创公司增长策略丨2B还是2C |
Venture
+
A16Z:全球AI产品Top100丨人工智能到底能做什么丨AI将会拯救世界 |
Air Street Capital:State of AI(2024) |
Alphabet谷歌战投:全球最牛AI战投是如何炼成的丨人工智能战略 |
Altimeter:谁是AI C端赢家 |
Amazon:人工智能战略 |
Apple:产品收入变迁丨 AI 并购之王 |
Battery Ventures:AI正推动云计算的下一波增长丨AI正带来 4 万亿美元市场机会 |
Bessemer Venture Partners:Cloud 100(2024)丨如何打造AI核心竞争力 |
Bond:AI将改变教育和教学方法 |
Coatue:AI革命丨AI是超级周期的开始 |
Cowboy:AI大势所趋 |
Daniel Gross:硅谷90后AI投资人 |
Dawn Capital:如何通过人工智能增强人脉 |
Elad Gil:关于人工智能我所不知道的事情 |
Emergence:生成式 AI 六大最新趋势 |
FirstMark:MAD 24问,AI 2023年总结,2024年展望 |
Forerunner:超个性化和动态交互才是未来 |
Foundation Capital:服务即软件的万亿机会 |
Founders Fund:如何投出下一个独角兽丨彼得·泰尔丨泰尔研究员 |
General Catalyst:AI+医疗支持者 |
ICONIQ:小扎的朋友圈丨AI成为大企业战略核心 |
Insight Partners:AI应用将如何实现人机协同丨AI Agent正在颠覆自动化 |
Lightspeed:AI+法律市场机会地图 |
M12(微软):如何抢占AI投资制高点丨收入拆解 |
Menlo Ventures:2024企业Gen AI现状报告丨AI代理全面崛起丨Gen AI 应用拐点已到丨AI+安全市场地图丨企业AI架构的设计原则 |
NVIDIA:收入丨AI投资策略 |
Sam Altman(山姆·奥特曼):如何做早期投资丨地产生意丨投资帝国丨婚礼丨阅读清单 |
Sapphire:AI原生应用丨AI进入调整期丨AI 行研 丨 销售人工智能如何重塑 GTM |
Scale Venture Partners:如何用AI工具解决硬件难题? |
Sequoia(红杉资本):如何做投资丨代理型AI应用崛起丨生成式AI进入第二阶段 |
Sierra Ventures:垂直场景将是最大的创业机会 |
SOSV: 从草根到帝国 |
TRAC:风投界的水晶球 |
Thrive Capital:高位接盘OpenAI |
Union Square Ventures(USV) |
Wing Venture Capital:2024年企业科技 30 强(ET 30) |
YC:全球排名第一的AI投资机构丨给年轻创始人建议丨如何独立思考丨YC与A16Z的押注有何异同 |
20VC:从播客主持人到风投大佬 |
LP |
精品基金/超级基金丨AI驱动VC丨通才/专才风投人丨VC/PE丨孵化器丨加速器丨初创工作室丨如何发掘下一个伟大的投资人 |
GP |
如何及早识别独角兽丨如何避免7大投资陷阱丨合伙人是怎么炼成的丨Souring的艺术丨颜值如何影响VC决策丨如何快速解读对方性格丨硅谷投资人的武器库丨如何用数据控制初创公司团队风险丨什么决定创业成败 |
AI投资 |
如何评估AI初创公司丨海外投资人谈AI新趋势丨应该关注哪些AI公司丨AI 创投七大新趋势丨全球AI创投生态丨全球AI投资机构Top10 |
Technology
+
AI工程师有多强?3天上线全球首个AI数库 |
“AI张雪峰”诞生,北大团队用 AI 重塑教育咨询 |
1人团队,百万营收的AI套壳 |
2024 年必读人工智能书单 |
加密信条:数字货币的前世、今生和未来 |
内容创作指南,如何通过写作赚钱? |
传统公司如何抓住AI浪潮? |
全球七大科技巨头的 4000 亿美元 AI 战略布局 |
全球 Gen AI 独角兽大盘点,中国4家大模型上榜 |
AI大模型:海外 | 数学 | 性价比 | 编程 | 医疗 | 评估 | 训练成本 | 小模型 |
AI 创始人 | 华裔创始人 | 北美科技人才中心地图丨职业经历丨教育背景丨斯坦福丨普林斯顿丨多伦多大学 |
AI 公司地理和行业分布 | 以色列 | 德国 | 旧金山湾区 | 欧洲丨法国 |
福布斯AI 50 | 斯坦福AI指数 | 企业科技AI 30 | 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25丨2024年全球最具价值独角兽丨Gen AI专利公司 Top20丨开源 AI 初创公司 Top 75丨开源 AI 开发者工具 Top 20丨全球数据中心按功耗排名 Top 50 |
AI代理:创始人该如何站上3000亿美元的风口? |
AI+国防安防:如何重新定义现代战场的核心竞争力 |
AI+人力资源:用科技重塑就业与招聘的未来 |
AI+搜索:全球新锐公司谁能杀出重围? |
AI+社交:该怎么玩? |
AI+编程:公司排行榜丨市场地图丨AI工程师丨SaaS的新曙光 |
AI+金融:如何缔造下一个金融科技传奇丨大模型在金融投资领域的应用丨AI将如何改变会计 |
AI+游戏:市场研究报告丨初创公司Top 10 |
AI+机器人 |
AI+医疗:市场地图丨心理/精神公司 |
AI+教育:市场地图 |
AI+客服:市场地图 |
AI+法律:市场地图 |
AI+视频:市场地图丨3D视频 |
AI+生产力工具市场地图 |
AI+科研 |
Review
+
001 | 002 | 003 | 004 | 005 | 006 | 007 | 008 | 009 | 010 |
011 | 012 | 013 | 014 | 015 | 016 | 017 | 018 | 019 | 020 |
021 | 022 | 023 | 024 | 025 | 026 | 027 | 028 | 029 | 030 |
031 | 032 | 033 | 034 | 035 | 036 | 037 | 038 | 039 | 040 |
041 | 042 | 043 | 044 | 045 | 046 | 047 | 048 |
049 |
050 |
051 | 052 |
053 |
054 |
055 |
056 |
057 |
058 |
059 |
060 |
061 |
062 |
063 |
064 |
065 | 066 |
067 |
068 | 069 | 070 |
071 | 072 | 073 | 074 | 075 | 076 | 077 | 078 | 079 | 080 |
081 | 082 | 083 | 084 | 085 | 086 | 087 | 088 |
(文:硅谷科技评论)