快3网络平台

你的位置:快3网络平台 > 新闻动态 >

解码DeepSeek模式:幻方量化十年孵化出OpenAI“杀手”

发布日期:2025-02-02 21:09    点击次数:159

没想到这篇文章引发了一阵狂炒。DeepSeek-R1 推理模型就在特朗普就职日那天发布,性能基本超过了 GPT-4o,媲美 OpenAI-o1,成本仅为其十分之一到二十分之一。这次不仅让硅谷懵逼,而且让华尔街也不安起来。

尤其是特朗普宣布了任期内投资 5000 亿美元 AI 基础设施的星际之门计划,由软银、OpenAI 和甲骨文操盘,微软、英伟达、ARM 等为技术伙伴,更是把美国的 AI 发展的资本 + 算力模式推到了一个新的高度,还不用说其他科技巨头每年高达数千亿的资本支出主要投向 AI。但 DeepSeek 以高效的训练和推理,让砸钱搞 GPU 军备竞赛的 AI 发展模式开始遭到一些质疑,建立在这一基础之上的 AI 概念公司,无论在一级市场,还是在二级市场,都面临着一次估值的拷问。

相比之下,DeepSeek 正在探索一条中国式的 AI 发展之路,我们在对 2025 年 AI 的十个展望中,第一条就提出来,中国将参与基础模型的创新,而不仅仅是跟随。辞旧迎新之际,我们再度对 DeepSeek 进行一次"模式"级别的梳理,分下面四个部分:

1,深度求索有深度

2,萤火和 R1 论文

3,DeepSeek 冲击

4,改写 AI 游戏规则

深度求索有深度

DeepSeek 远远不像是许多介绍的、尤其是海外报道和传说中的那样,是一家仅成立一年多的 AI 公司。实际上它脱胎于幻方量化基金,这是一家已经创办了 17 年的、有数学、计算、研究和 AI 基因的对冲基金。

2008 年,浙江大学学习信息与通信工程的梁文锋创立了幻方量化,直到 2014 年,在幻方量化的初创阶段,团队从零开始探索全自动化交易。

2015 年才是幻方自认为的创始元年,真正依靠数学与人工智能进行量化投资。"创始团队意气风发、勇于创新、勤勉奋进,立志成为世界顶级的量化对冲基金。" 2016 年,幻方第一个 AI 模型建立的股票仓位上线实盘交易,算力开始从 CPU 转向 GPU。至 2017 年底,几乎所有的量化策略都已经采用 AI 模型计算。

作为一家对冲基金,幻方开始确立以 AI 为公司的主要发展方向。但是, 复杂的模型计算需求使得单机训练遭遇算力瓶颈,同时日益增加的训练需求和有限的计算资源产生了矛盾,2018 年,幻方的 AI 团队开始寻求大规模算力解决方案。

其实 2019 年可能是幻方大模型之路的起点,这一年,幻方 AI(幻方人工智能基础研究有限公司)注册成立,致力于 AI 的算法与基础应用研究。AI 软硬件研发团队自研幻方"萤火一号" AI 集群,搭载了 500 块显卡,使用 200Gbps 高速网络互联。一年之间,"萤火一号"总投资近 2 亿元,于 2020 年正式投用,满血搭载 1100 块加速卡,为幻方的 AI 研究提供算力支持。

幻方 AI 很快又投入 10 亿元建设萤火二号。2021 年,萤火二号一期确立以任务级分时调度共享 AI 算力的技术方案,从软硬件两方面共同发力:高性能加速卡、节点间 200Gbps 高速网络互联、自研分布式并行文件系统(3FS)、网络拓扑通讯方案(hfreduce)、算子库(hfai.nn),高易用性应用层等,将萤火二号的性能发挥至极限。

到了 2022 年,ChatGPT 时刻前夕,幻方已经成为国内一家领先的 AI 公司,而且手中握有上万块英伟达 A100 卡和一定数量的 AMD 卡。萤火二号取得了多 800 口交换机互联加核心扩展子树的软硬件架构革新,突破了一期的物理限制,算力扩容翻倍。新的 hfai 框架让模型加速 50-100%。集群连续满载运行,平均占用率达到 96% 以上。全年运行任务 135 万个,共计 5674 万 GPU 时。用于科研支持的闲时算力高达 1533 万 GPU 时,占比 27%。

从中可以推算出,在 2022 年,幻方已经平均每天用 4.2 万 GPU 时,相当于每天有近 2000 张 GPU 卡在几乎满负荷跑科研而不是交易。如果按照当时 A100 每小时云服务的市场价,相当于每年在科研方面投入 2 亿元人民币。这样规模的 AI 研究,在当时的国内处于领先状态,在当时的国际上巨头之外的 AI 初创公司中,也算得上是领先的。

2023 年 4 月 11 日,开源模型 Llama1 和 GPT-4 相继发布之后,幻方宣布做大模型,2023 年 5 月把技术部门做大模型的团队独立出来,成立深度求索公司,进军通用人工智能 AGI。

所以,如果从深度求索公司成立算起,DeepSeek 还不满 2 年;但是如果从成立幻方 AI 算起,已近 5 年;再从 2016 第一个 AI 股票仓位模型上线交易算起,已近 10 年。

当 2018 年,幻方确立以 AI 为公司的主要发展方向时,就已经注定了它将是一家 AI 技术公司,而对冲基金是其当时主要的应用。

我们可以看到,量化投资与 AI 研究,构成了幻方基因的双螺旋结构。2019 年,幻方跻身百亿私募,这一年,幻方 AI 成立,并且开始独立构建萤火集群。2021 年,幻方管理基金规模一度超过千亿元,它开始构建更大更复杂的算力集群萤火二号。幻方的基金管理业务最辉煌的是 2019 年和 2020 年,自然年收益分别为 58.69% 和 70.79%,此后因为行业等方面的原因,量化发展一蹶不振,但幻方作为一家 AI 公司凸显出来。

如果对比成立于 2010 年的 DeepMind 和成立于 2015 年的 OpenAI,作为创业公司,幻方与其处于同一时代。DeepMind 和 OpenAI 创立时都是纯粹的 AI 实验室,以实现通用人工智能(AGI)为使命,而且在这场深度学习革命中起到了先锋作用,从 AlphaGo、AlphaFold 到 ChatGPT,都是革命性的技术与产品。相比之下,幻方 AI 一直在复刻研究其成果,直到成立深度求索,推出 DeepSeek 大模型。从这一点来说,DeepSeek 取得的成就,是站在巨人的肩膀上。

从 AI 交易模型到幻方 AI,再到 DeepSeek,推动了幻方的对冲基金业务的同时,也一步一步从业务部门独立出来,并逐步重新定义幻方这家公司。幻方 AI 的发展离不开对冲基金业务的支持。进行长期的 AI 研究,离不开资金与算力资源的强有力支持。DeepMind 最后被谷歌收购,作为一家独立的公司,它一直亏损,但作为一家 AI 研究实验室,在谷歌内部的作用是战略性的。

我在 2017 年采访 DeepMind 创始人哈萨比斯时,他告诉我说,谷歌收购 DeepMind,就是为了推动从移动第一到 AI 第一的战略转型。在 ChatGPT 之后,谷歌更是对其内部显得杂乱的 AI 研发和业务进行了整合,全部归并到 DeepMind 旗下。

同样,OpenAI 也从非营利改组为营利。其中微软先后投资达 140 亿美元,对于 OpenAI 能持续以大算力推进 Scaling Law ( 扩展定律),以大资金和高估值吸引全球顶尖人才,成为一家生成式人工智能的领军企业,发挥了至关重要的作用。

对于所有的技术公司来说,AI 大模型将成为其技术底座,也将重构所有企业的 IT 和软件部门,这可以部分解释为什么一个企业内生的 AI 能力,强大到一定程度,有可能定义出企业新的增长曲线。

从 2019 年幻方开始构建萤火一号开始,就注定了它走上了一家 AI 公司的轨迹。2021 年,幻方构建萤火二号,在亚太第一个拿到 A100 卡,在 ChatGPT 之后,幻方成为全国少数几家拥有上万张 A100 GPU 的机构。投资十多亿元构建万卡级算力集群,这不会是仅仅用于炒股。

而硅谷和 Alex 王和 Dylan Patel 等,在 DeepSeek-3V 推出之后,更是相信 DeepSeek 拥有 5 万块 H100。不管怎么说,在 DeepSeek 做研究,应该是中国实现 GPU 自由的地方。

DeepSeek 与 DeepMind 和 OpenAI 一样追求人才密度,所不同的是,后两者吸收了全球最优秀的 AI 人才,而前者目前只吸收了国内最优秀的人才。记得当时我采访哈萨比斯时问过同样的问题,他回答说:DeepMind 吸引了全球 60 多个国家顶尖的博士生和科学家。

DeepSeek 从一家对冲基金的技术研究部门,逐步将其母体转变为一家 AI 公司,这是一个非常特殊的例子。对冲基金和 AI 技术都来自美国,但无论是华尔街的对冲基金、还是从华尔街海归做量化的团队,没有一个能像幻方这样,进化出一个做通用 AI 大模型的核心能力,例如,彭博曾经很早推出了 BloombergGPT 大模型,然后就没有然后了。从这一点上来说,DeepSeek 这个本土团队是独特的,没有"模式"可谈。

但是,DeepSeek 也蹚出了一条路,可能用 500 万美元、千张 GPU 卡训练出高性价比的模型,这让许多在巨头面前感到绝望、纷纷放弃预训练的初创 AI 企业,开始重新思考它们的战略,从这一点来说,DeepSeek 开创了一种"模式"。

萤火和 R1 论文

2024 年,DeepSeek 一口气发布了从 V1 到 V3 三个基础模型版本,全部开源,如果看其研究部门之前几年发的论文和技术博客,可以理解这也是厚积薄发的结果。我们在去年底的文章里介绍了 DeepSeek 的 8 篇论文,这里再补充介绍两篇。一篇是被国际 AI 界广泛赞誉为 2025 年迄今为止最佳论文的 R1。

它的亮点包括:对基础模型直接上强化学习,而不是先用收集起来非常耗时的监督数据进行训练;采用了群体策略相对优化(GRPO ) ,强化学习训练的成本和复杂性都得到了显著降低,同时保持了较好的性能表现;还蒸馏了 6 个 Qwen 和 Llama 的小模型,用起来更加节省,而且针对领域的性能更加强大;特别是 DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中优于 GPT-4o 和 Claude-3.5 Sonnet。它可以装到一个手机里。

这里要特别提及论文中有一段,用散文化的语言,描述了在训练过程中出现的模型自我"顿悟"的时刻:

"在 DeepSeek-R1-Zero 的训练过程中,观察到一个特别有趣的现象,即"顿悟时刻"(aha moment ) 的出现。这一时刻出现在模型的中间版本中。此时,DeepSeek-R1-Zero 学会了重新评估其初始方法,为问题分配更多的思考时间。这种行为引人入胜,不仅证明了模型推理能力的提升,也例证了强化学习如何带来意外且复杂结果。

这不仅是模型的‘顿悟时刻’,也是研究人员的‘顿悟时刻’,他们观察到了强化学习的力量与美感:我们并未明确教导模型如何解决问题,而是为其提供了正确的激励,使其自主发展出高级的问题解决策略。‘顿悟时刻’有力地提醒我们,强化学习有潜力在人工系统中解锁新的智能水平,为未来更自主和自适应的模型铺设道路。"

一个有趣的"顿悟时刻"出现在 DeepSeek-R1-Zero 的中间版本中。该模型学会了以拟人化的语气重新思考。这对我们来说也是一个顿悟时刻,让我们见证了强化学习的力量与美感。(来源:DeepSeek R1 论文)

如何构建一个高效的万卡算力集群?DeepSeek 发布于 2024 年 8 月的论文,介绍了高性价比的萤火 AI-HPC 架构,提出了深度学习的软件与硬件一体化设计的理念。按姓氏拼音字母,创始人梁文锋排在第 17 位作者。

这篇论文总结了构建萤火二号的经验,配备 10,000 个 PCIe A100 GPU,其性能接近英伟达的 DGX-A100,同时将成本降低了一半,能耗减少了 40%。

DeepSeek 团队特别设计了 HFReduce 以加速 allreduce 通信,并实施了多项措施以确保计算 - 存储一体化网络无拥塞。通过我们的软件堆栈(包括 HaiScale、3FS 和 HAI-Platform),还通过重叠计算和通信实现了显著的扩展性。

从中可以看出,DeepSeek 的策略,是用接近最先进的大模型和基础设施的性能,设计出远超其接近性的高性价比的产品,参与国际大模型竞争。

DeepSeek 冲击

DeepSeek-R1 已经成为 MIT 和斯坦福美国顶尖高校研究人员的首选模型。甚至有研究人员表示,它已经代替了 ChatGPT。其实最大的受益者,应该是中国用户,它让美国在大模型上对中国的卡脖子基本无效了,中国大多数用户以后可以用上和美国基本相当的 AI 模型和应用。

全球最大开源平台 HuggingFace 团队,也正式宣布复刻 DeepSeek-R1 所有 pipeline。完成之后,所有的训练数据、训练脚本等,亦将全部开源。DeepSeek 已飙升至 HuggingFace 上下载量最多的模型,仅 R1 下载已经超过 13 万次(本文截稿时为止),蒸馏小模型如 Qwen 32B 和 1.5B,也都名列前茅。

DeepSeek-R1 激起了开发人员极大的热情,社交媒体和社区网站上,大家兴奋地分享着自己的尝试,并交流着对他们的 AI 开发意味着什么。用户评论说,DeepSeek 的搜索功能现在优于 OpenAI 和 Perplexity ,只有 Google 的 Gemini Deep Research 可以与之匹敌。

尤其是在基础模型上直接强化学习,成为众多 AI 实验室及研究人员纷纷采用的新范式,为了过程中追求 DeepSeek 的那一"呵哈时刻",港科大助理教授何俊贤团队,只用了 8K 个样本,就在 7B 模型上复刻出了 DeepSeek-R1-Zero 和 DeepSeek-R1 的训练。

一些团队证明,采用了 R1-Zero 算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习,小到 1.5B 的开源模型,应用于一些游戏当中,都能复现出解决方案、自我验证、反复纠正、直到解决问题为止。1.5B 模型更是可以下载到手机上,在数学等性能上,相当于拥有了一个性能相当 GPT-4o 和 Claude 3.5 Sonnet 的最先进闭源模型。

美国的主流商业、财经、甚至综合时政媒体,也开始报道 DeepSeek 现象。CNBC 对 AI 独角兽 Perplexity 创始人 CEO Aravind Srinivas 的专访,从一个技术产业专家的角度,对 DeepSeek V3 的亮点进行了点评:

需求是创新之母。正因为他们必须寻找变通方案,他们最终建造出了一个效率更高的系统。"除非在数学上能证明这是不可能的,否则你总能想出更有效率的方案。"

性价比。"他们推出了一个成本比 GPT-4 低 10 倍、比 Claude 低 15 倍的模型。运行速度很快,达到每秒 60 个 token。在某些基准测试中表现相当或更好,某些则稍差,但总体上与 GPT-4 水平相当。更令人惊讶的是,他们仅用了大约 2048 个 H800 GPU,相当于 1000-1500 个 H100 GPU,总计算成本仅 500 万美元左右。这个模型免费开放,并发布了技术论文。"

巧妙的技术解决方案。"首先,他们训练了一个混合专家模型 ( Mixture of Experts ) ,这并不容易。人们难以追赶 OpenAI,特别是在 MOE 架构方面,主要是因为存在大量不规则的损失峰值,数值并不稳定。但他们提出了非常巧妙的平衡方案,而且没有增加额外的技术修补。他们还在 8 位浮点训练方面取得突破,巧妙地确定了哪些部分需要更高精度,哪些可以用更低精度。据我所知,8 位浮点训练的理解还不够深入,美国的大多数训练仍在使用 FP16。"

Perplexity 已经开始使用 DeepSeek。他们提供 API,而且因为是开源的,我们也可以自己部署。使用它可以让我们以更低的成本完成许多任务。但我在想的是更深层的问题:既然他们能训练出如此优秀的模型,这对美国公司来说,包括我们在内,就不再有借口说做不到这一点了。

DeepSeek-R1 开源,已经逼得 o3 mini 免费!

从硅谷到华尔街,分析人士已经开始思考,DeepSeek 可能对热炒 AI 的美国资本市场,从一级到二级,会带来多大的影响。中国企业地板价的 AI 服务,会不会冲击美科技巨头的估值,AI 相关基础设施的投资规模,等等。科技巨头每年巨额的 AI 资本支出,短期内是否值得。美国 AI 概念股,是否需要来一次重新估值呢?而中国的 AI 概念股,是否也需要来一次重新估值呢?有人开玩笑说,DeepSeek 背后的幻方量化,在发布 V3、R1 的同时,幻方可以建立起做空美国 AI 概念股的策略。

DeepSeek 也在改变硅谷的 AI 初创企业估值,让风险资本多数不约而同站在 DeepSeek 一边,他们找到了杀价初创公司的最好理由:我 pre-A 给你 500 万美元,你能干出点啥?看看人家的孩子,看看 DeepSeek!

难道你们都把钱用来买 OpenAI 的服务了吗?现在不是有 DeepSeek,便宜 10 倍到 20 倍呵!而且,紧接着 DeepSeek,字节的豆包 -1.5-pro 也推出了,比 DeepSeek 便宜 5 倍,比 o1 最多便宜 200 倍!

就连 OpenAI 刚刚推出的智能体 Operator,只有月费 200 美元的订户才能使用,但是,用 DeepSeek 可以做出同样好的开源免费版本,而且已经有四五个了。

AMD 反应很敏锐,已经把 DeepSeek-V3 集成到了 Instinct MI300X GPU 上。

用 DeepSeek,还出现了一些新的玩法:如 RAT,( retrieval augment thinking ) ,把 R1 的推理过程,嫁接到任何一个大型语言模型上,可以显著提升其性能,并获得函数调用和 JSON 模式。

这位小哥在用 DeepSeek 开发了一个研究智能体。

不过也有一些研究人员表示,DeepSeek 模型在跟踪长时间对话的背景等方面,其能力与花费更高的竞争对手模型相比,还有欠缺。

改写 AI 游戏规则

这次杨立昆最有话说。"与其说是中国正在超越美国 AI,不如说是开源正在超越闭源 AI。"

开源与闭源

面对美国的封锁和巨头的军备竞赛,中国的一些 AI 企业选择了一条不同的道路——开源。较低的成本可以做出优秀可用的推理模型,而且好的模型转化为更"杀手"的应用,似乎是更有效的路径。DeepSeek 没有在应用方面花一分钱推广,但它已经在国内和国际的各大应用商店占据榜首。这让一些 AI "小龙"们重新思考,回归技术,拥抱开源,如最近 MiniMax 果断转向开源。

开源能够汇聚全球社区的力量,加速大模型的研发和应用创新。开源模型更容易被广泛采用,尤其是在算力和人才资源有限的国家和行业。 通过开源,中国有机会在全球 AI 领域建立自己的技术标准。开源模型(如 DeepSeek、阿里 Qwen 等)以高性价比著称,有助于推动 AI 技术的普惠化,将 AI 技术推广到全球南方国家,

DeepSeek 会影响众多企业 AI 战略。随着成本降低和开放访问,企业现在可以选择替代昂贵的专有模型,例如 OpenAI。DeepSeek 的发布可能会使前沿 AI 功能的访问变得民主化,使较小的企业能够在 AI 军备竞赛中有效竞争。

Aravind Srinivas 进一步指出了为什么美国地精英阶层开始产生的担忧更具战略意义:"比起试图阻止他们(中国 AI 企业)追赶,更危险的是他们现在拥有最好的开源模型,而所有美国开发者都在使用它进行开发。这更危险,因为这意味着他们可能会掌握整个美国 AI 生态系统的心智。历史告诉我们,一旦开源赶上或超越闭源软件,所有开发者都会转向开源。"

中国与美国

在美国对中国实施芯片封锁的背景下,DeepSeek 展现了一种真正的创新——需求推动的创新。中国企业在仅能从中国本土企业获得比美国落后一两代 GPU 条件下,依然能够开发出优秀的基础模型。这种创新不仅仅依赖于 GPU 和资本的军备竞赛,而是通过算法、架构和工程的创新实现了突破。

关于 OpenAI 的护城河问题,2023 年 5 月,在 Meta 发布了 Llama 开源模型后不久,谷歌内部即有人提出,我们没有护城河,OpenAI 也没有。

今天,是这一问题再次提出的时候了。首先是 OpenAI 的护城河在哪里。随着 AI 技术进入实际应用领域,性价比成为关键因素,而非单纯追求最先进的模型。OpenAI 等公司投入数十亿甚至上百亿美元进行预训练和基础设施建设,但如果其技术护城河不够深,其商业模式将面临挑战。这种高投入的模式是否可持续,成为从硅谷到华尔街令人感到焦虑的问题。

DeepSeek 已经证明,美国无法在 AI 领域获取绝对的竞争优势,甚至那些科技巨头都无法取得绝对的优势。

应该看到,以 AI 发展的全栈技术来看,中国与美国依然有明显的差距。越往底层走,差距越明显。在 AI 芯片领域,从 GPU 到 HBM,中国自主技术的差距在两代到三代。而这一轮 AI 创新的一个突出特征,是科技巨头主导的,它们拥有自制芯片(ASIC)、数据中心、云计算、AI 平台及工具链、操作系统、杀手级应用,建立起全栈技术的垂直整合体系,其中尤以亚马逊、微软、谷歌这三大云服务巨头为代表。

OpenAI 也在向一家 AI 科技巨头演变,它依然拥有强大的技术能力和品牌影响力。它正在从基础模型向上下游扩展,建立起自己的应用芯片团队和数据中心,加快布局基于推理模型的智能体,并全面探索其商业模式,如果昂贵的而又尖端的推理和智能体技术,最终证明能解决复杂和有价值的问题,在性价比上依然拥有强大的竞争力。

Srinivas 认为 Meta 仍然会开发出比 DeepSeek 3 更好的模型,"不管他们叫它 Llama 4 还是 3 点几"。他特别强调了 Meta 在开源领域的贡献:"实际上,Meta 的 Llama 3.3 技术报告非常详细,对科学发展很有价值。他们分享的细节已经比其他公司多得多了。"相比之下,DeepSeek 的技术报告没有公布训练数据来源。

Srinivas 认为,与其担心中国的追赶,更重要的是保持创新势头,继续推动技术进步。"我们不应该把所有精力都集中在禁止和阻止他们(中国 AI 企业)上,而是要努力在竞争中胜出。这才是美国人做事的方式——就是要做得更好。"

对攻的比赛更精彩。蛇年让我们期待 Llama 4,Grok 3,也期待 OpenAI-o4, Claude-4, 还有 Gemini-2.5 或者 3,甚至 GPT-5。





Powered by 快3网络平台 @2013-2022 RSS地图 HTML地图