魏哲巍:DeepSeek为何能够取得成功,未来又将迈入何方?
中国人民大学高瓴人工智能学院教授魏哲巍表示,DeepSeek凭借卓越的性能与成本优势在大模型领域占据重要地位,并通过开源模式推动技术普惠。其成功核心源于强大的算力资源支持与精简高效的小团队协作,通过统一架构优化显著降低开发成本。预计其未来将复现高阶推理模型、进一步压缩成本;同时探索大模型应用开发,如深度研究工具,并持续扩大开源生态。
展望未来,一方面,DeepSeek的崛起凸显基础模型研发的重要性。国内大模型公司面临严峻竞争,部分企业转向开源或调整战略,而国际巨头或因技术迭代压力与内部协作问题增长受限。
另一方面,通用人工智能(AGI)的实现仍存多重挑战,包括对于规模定律的争议、推理能力成本边界及多模态融合的技术瓶颈。尽管各界对于如何实现、何时实现AGI分歧显著,但DeepSeek聚焦基础模型的能力提升,无疑是在AGI技术路径上的重要探索。
*本文为魏哲巍在2月23日“AI时代科技创新与产业链重塑”研讨会上的专题发言。
01
DeepSeek 所处的位置
DeepSeek以极低的训练成本和推理成本,以及卓越的性能,在大模型领域脱颖而出,取得了领先地位。DeepSeek的两个模型——2024年12月发布的V3版本以及近期发布的R1版本——在性能表现上各自具有显著特点:其中,V3版本的能力与GPT-4o相当。而R1版本的表现则更为突出,其性能略优于GPT-o1 以及最新的o3-mini;从整体水平来看,R1与马斯克近期发布的Grok3相当。测试结果显示,R1已经达到了极高的水平,堪称当前最强的模型之一。
更为关键的是,DeepSeek在效率和成本方面表现出显著优势。具体而言,V3版本以约550万美元的成本复现了GPT-4o的能力,这一成本相比以往降低了数倍。R1版本则以低成本复现了o1的能力,进一步凸显了其在训练成本上的优化。更重要的是,R1在推理成本上也表现出色,据称仅为o1的三十分之一。尽管在实际使用中,R1偶尔会出现崩溃现象,这主要是由于当前整体算力不足所致,但其敢于以免费形式推出,这一事实充分说明了其成本控制的成效。
以上所述是DeepSeek目前所处的水平。虽然不能断言其处于领先地位,但至少其性能已达到与最强闭源模型相当的水平。更为重要的是,DeepSeek采用了开源模式。
02
DeepSeek成功的原因
DeepSeek取得成功的原因,有两点总结:一是大资源;二是小团队。
第一,大资源。DeepSeek的成功离不开其强大的资源支持。在2022年ChatGPT模型刚刚问世时,市场上涌现出许多希望复现该技术的公司。当时,国内拥有最多计算卡的公司是一家量化公司,这一说法曾令人感到惊讶。幻方公司当时声称拥有1万张计算卡,从目前情况来看,这一说法应是属实的。然而,幻方最初购买这些计算卡的目的可能并非是为了开发大语言模型,而是用于基于深度学习的量化交易算法。随后,梁文锋显然下定决心要实现AGI,并决定开发类似GPT的模型,这便是DeepSeek。因此,DeepSeek背后拥有极为强大的算力支持,这一点至关重要。
按照DeepSeek的开源思路,V3版本的开发成本为550万美元,但这仅是其最后一次训练的成本。然而,探索出这一路径的过程却耗费了数倍于此的代价。大模型的开发缺乏成熟的理论指导,更多依赖于不断的尝试和工程经验的积累。这种试错过程的成本极高,而DeepSeek之所以能够成功,很大程度上得益于其强大的资源投入,使其能够在多次尝试中积累经验并最终找到可行的路径。
第二,小团队。与其他大型科技公司相比,大厂团队内部的分工明确,但架构往往较为复杂和臃肿。例如,架构团队和模型开发团队通常是相互独立的。当架构团队希望降低成本或进行优化时,模型开发团队可能由于各种原因不愿意配合做出相应的调整。这种跨团队协作的困难在大厂中普遍存在,导致整体效率受到限制。
相比之下,DeepSeek的核心团队规模非常小,仅有五到六人。团队成员在梁文锋的统一领导下,能够高效地协同工作,共同优化模型架构,甚至对底层CUDA计算框架进行调整。这种高度统一和高效的团队协作模式,使得DeepSeek能够在短时间内实现模型的优化和成本的大幅降低,从而在资源利用和开发效率上取得显著优势。
从金融角度来看,DeepSeek无需依赖外部融资且不依赖具体应用的开发,这一点在大模型时代显得尤为重要。此前,许多投资人认为,中国在基础模型领域的投入是徒劳的,主张专注于应用开发。然而,这种观点可能需要重新审视。事实上,基础模型的能力仍在持续提升,而目前在应用端所设想的场景及其所谓的“护城河”往往是基于当前技术水平的主观判断。随着模型能力的进一步发展,这些所谓的“护城河”可能会被迅速打破。
DeepSeek的成功正是基于对这一趋势的深刻理解。它专注于基础模型的研发,而不是急于推出具体的应用。这种策略使得DeepSeek能够集中资源,专注于模型能力的提升,从而在技术上取得突破。这也进一步说明了为什么DeepSeek能够在大模型领域取得显著成就——它抓住了基础模型发展的核心,而不是被短期的应用需求所束缚。
03
DeepSeek后续的发展方向
基于现有信息与趋势,可以对DeepSeek未来发展方向做出预期:第一,DeepSeek必然会致力于复现o3模型。o3是GPT系列中最新的推理模型,以支持更长的思维链著称,其推理任务的长度可达数千甚至数万个token。相比之下,o1与R1在推理能力上较为接近,主要处理较短的思维链任务。在GPT模型刚发布时,o3单个问题的推理成本曾高达数千美元,这一高昂成本主要源于其处理长token序列的能力。
o3在处理如此长的token序列时仍保持对用户需求的关注,并给出有效解决方案,是目前学界和DeepSeek最为关注的核心问题之一。复现o3的能力不仅是技术上的挑战,关键更是在于成本控制。由于o3的成本过高,目前市场上广泛应用的实际上是经过蒸馏优化的o3 mini版本。然而,这恰恰凸显了DeepSeek的一大优势——其在降低成本方面的卓越能力。
因此,可以预期,DeepSeek在复现o3的过程中,不仅会致力于实现其长思维链的推理能力,还会探索进一步降低成本的方法。这将使其在技术与成本效益上同时取得突破,进一步巩固其在大模型领域的竞争力。
第二,做基于大模型的应用。比如GPT最新的DeepResearch,它是一个非常强的AI搜索工具,在网上搜索分析,综合非常多的信息源生成报告,生成能够媲美行业研究员的报告。这件事情之前引起了一些关注。Gemini的DeepResearch效果不佳,OpenAI可能有自己的独到之处,DeepSeek应该会考虑复现这些能力。
第三,DeepSeek未来会继续开源,不仅仅是现在的R1,将来还会在开源上更进一步。DeepSeek已经声称还会开源5个代码库。外网戏称DeepSeek是真正的“OpenAI”;而现在的OpenAI是“close AI”,因为它从来不开源任何的内容。
04
其他大模型公司的未来发展
当前,大模型行业格局正呈现动态调整态势。面对头部厂商的技术突破,国内很多大厂正在重新评估和改变战略定位。当前行业呈现开源开放趋势,若技术竞争力未能形成显著优势,开源可能成为多数企业的现实选择。引入国际顶尖人才优化技术布局,也是企业的战略选择之一。此外,加强底层技术研发投入,发力基础模型,从而支持应用创新。
国外方面,首先OpenAI的压力非常大,尤其是去年12月份V3刚出来的时候,我们就观察到,DeepSeek是在国外获得广泛关注的,就是因为OpenAI经常去关注它、在各个社交媒体去评论DeepSeek。当时就可以从中判断,正是因为DeepSeek V3已经追上GPT-4o,所以OpenAI的才会特别地紧张、感到很大压力。
Meta压力更大。LLaMA-4怎么办,是很大的一个问题。学界在DeepSeek之前收益最大的就是Meta。因为LLaMA-1、2、3开源,都是靠它在做研究。Meta花了非常大的成本来做这件事。但问题是,目前看起来LLaMA-4能力可能没有DeepSeek强,却没有开源,LLaMA-4未来在开源上是很尴尬的,可能面临发布即落后的情形。
以下是市面上几款具有显著特点的模型:首先是Claude 3.5 Sonnet,其代码生成能力目前仍处于世界领先水平。在实际应用中,当我们将代码接入Cursor时,Cursor会进一步与该模型对接。Grok3 与Llama 模型相当,然而,Grok3的使用成本较高,尤其是其深度搜索(DeepSearch)功能,用户每天仅能免费使用两、三次,超出部分则需付费。相比之下,Grok3很难像DeepSeek那样为用户提供免费的深度搜索或深度思考能力。
谷歌和百度在大模型研发方面均面临类似的挑战。尽管谷歌的大模型团队隶属于DeepMind,但内部存在明显的派系分化,这在一定程度上限制了其构建一个强大基础大模型的能力。然而,谷歌在模型应用开发方面表现出色,推出了许多富有创新性的应用。例如,DeepResearch是其较早推出的应用之一;此外还有NotebookLM,该应用能够为撰写行业研究报告提供支持,甚至可以生成两个人围绕该报告进行对话的博客内容,且生成的对话生动逼真。LearnAbout这一产品则可能对教育领域产生变革性影响,它是一种交互式学习模型。近日,谷歌还推出了AI co-scientist,旨在为科学家提供辅助,自动完成部分实验操作。谷歌的应用开发之所以表现出色,是因为其拥有众多部门,但在整合资源以构建基础模型方面存在困难。以Gemini为例,其付费高级版本Gemini Advanced的效果并不如预想般强大。
目前,国内外其他大模型公司的发展态势呈现出高度复杂性和不确定性。在当前阶段,对大模型的发展趋势进行具体且精准的研判存在较大难度。事实上,此前并未有相关分析准确预测到DeepSeek能够以如此迅猛的速度追赶上OpenAI。大模型领域的技术迭代和市场竞争极为迅速,稍有不慎,曾经领先的技术或企业便可能被后来者迅速超越。
05
展望通用人工智能(AGI)
DeepSeek表现出色,但其出现并不意味着人类距离实现AGI更近一步。它仅仅是复现了GPT-4o和o1的功能,与AGI之间的差距并未因此缩小,原因在于:
首先,DeepSeek的出现标志着开源模型在性能上追上了闭源模型。开源模型赶上闭源模型往往是计算机软件领域的一个重大事件。例如,安卓系统追上iOS系统后,便意味着该领域将出现井喷式的发展。同样,DeepSeek的出现也代表着中国在大模型领域追上了美国。
然而,要实现AGI,学界可能仍会关注几个关键问题。首先,训练模型时的Scaling Law(规模定律)是否仍然有效是一个重要议题。具体而言,当我们在现有基础上进一步增加数据量和算力时,是否能够持续获得显著的性能提升,这一点目前仍存在不确定性。
事实上,据一些消息显示,GPT-5的训练似乎遇到了困难,其训练过程并不像预期的那样顺利。这背后可能有多种原因,但这一现象引发了学界对Scaling Law的进一步思考。有研究者认为,随着数据量和算力的不断增加,模型性能的提升可能并不总是呈线性或显著的正相关关系。这种对Scaling Law有效性的质疑,无疑为AGI的实现路径增添了一个重要的问号。
第二个问题,涉及推理能力的提升及其成本边界。如果基础模型的能力无法通过简单增加数据量或算力实现显著提升,那么推理能力的扩展及其成本效益问题就显得尤为重要。当前,基础模型的能力可能已接近某种上限,例如GPT-4o的水平。在此基础上,通过后训练方法(如强化学习)进一步训练推理模型(如o1),并利用更长的思维链来解决更复杂的问题,这一过程的Scaling Law及其成本边界尚未明确。
具体而言,是否可以通过巧妙的后训练方法,例如训练DeepSeek的后续版本,进一步激发基础模型的潜力,从而实现AGI,这目前仍是一个开放性的问题。一方面,部分研究者认为,现有的基础模型能力可能已经足够强大,只需通过更优化的后训练策略来挖掘其潜力。另一方面,也有观点认为,仅靠后训练方法可能难以实现从现有水平到AGI的跨越。对此,目前学界尚未达成共识,这一问题仍需进一步探索和验证。
第三,关于多模态的Scaling Law何时到来,目前学界也尚无定论。许多学者,包括李飞飞和杨立昆,认为仅依靠语言模型无法实现AGI,多模态的具身智能是实现AGI的必要路径。具身智能需要整合图像、视频、音频甚至触觉等多种模态的信息。然而,目前多模态领域面临的关键问题在于尚未找到明确的Scaling Law,其类似于自然语言处理领域GPT-1时代的突破尚未出现。
在多模态架构的设计上,目前仍存在诸多不确定性。例如,多模态系统是否可以通过混合专家(Mixture of Experts, MoE)架构实现,或者是否需要其他类型的架构,目前尚未有定论。在不同模态的模型设计上,图像领域主要采用扩散模型(Diffusion Models),而文本领域则以自回归模型(Autoregressive Models)为主。如何将这些不同模态的模型进行统一,也是一个亟待解决的问题。
此外,如果语言模型的发展速度远远超过其他模态,并且已经接近AGI的水平,那么是否可以利用语言模型来设计多模态模型的架构,也是一个值得探讨的方向。因为如果语言模型的智能水平超过人类,它可能具备设计更高效多模态架构的能力。然而,这些问题目前仍处于未知状态,需要学界和业界的进一步研究和探索。
以上三点问题,正是我们与实现AGI之间存在的主要差距。此前,国内外科技界的领军人物曾多次对AGI的实现时间进行预测,但观点差异极大。有人认为AGI可能在2025年年底实现,而另一些人则认为可能还需30至50年。这种巨大的预测差异反映了AGI实现路径的不确定性,也凸显了学术界对AGI实现方式的高度关注。
DeepSeek取得的成功,在很大程度上是因为其明确的目标定位。据了解,DeepSeek团队并未将自身局限于开发具体的应用,而是致力于实现AGI。随着模型能力的不断提升,其在应用层面的潜力也会逐渐显现,甚至可能掩盖许多现有的应用功能。换言之,当模型具备足够强大的通用智能时,许多当前看似独立的应用场景可能会被模型的底层能力所整合,从而展现出更广泛的应用价值。