百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大模型的“诅咒”被DeepSeek破除了吗?

myzbx 2025-02-15 00:15 65 浏览

DeepSeek的横空出世,引发了全球科技界的广泛关注。其在短时间内迅速崛起,不仅在性能上与OpenAI等国际巨头相媲美,更以极低的成本和高效的推理能力,成为全球增速最快的AI应用之一。本文将深入探讨DeepSeek的技术突破是否真的破除了大模型行业的传统“诅咒”,分析其背后的技术路径、开源模式以及对算力投入的影响,供大家参考。

新一年的全球科技圈,主角俨然是DeepSeek。从发布以来,DeepSeek在整个AI产业链上引发一系列连锁反应,无论是OpenAI,还是英伟达,其明显的震惊似乎皆验证着DeepSeek已奇袭成功。

而DeepSeek的初步表现也的确可圈可点,数据显示,上线5天DeepSeek日活跃用户已超过ChatGPT,上线20天的日活达2000万人次以上,已是ChatGPT的23%。当前,DeepSeek成为全球增速最快的AI应用。

在海外一众AI玩家不可置信的同时,国内AI领域一片“锣鼓喧天”:截至目前,阿里云、百度云、腾讯云、字节火山引擎均已正式支持DeepSeek;同时,百度昆仑芯、天数智芯、摩尔线程接连宣布支持DeepSeek模型。

这也标志着全球AI竞速赛中,国产厂商终于又跨出了一步。而DeepSeek的出现,是否为僵化已久的大模型行业破除了一些传统“诅咒”,很多至关重要的细节,其实还值得进一步深究。

一、DeepSeek出圈是“偶然性”的吗?

纵观当前围绕DeepSeek的几大主要争议,似乎每一点都指向同一个问题:DeepSeek是否真的实现了大模型的技术突破。早在DeepSeek公布其模型训练成本仅为行业1/10时,就有声音质疑,DeepSeek是通过大幅缩减模型参数规模,或依赖母公司幻方早期囤积的廉价算力实现的。

从某种角度来看,这些质疑有迹可循。

一方面,DeepSeek在缩减模型参数规模方面的“激进”有目共睹,另外一方面,DeepSeek背后的幻方确实有一定的算力储存。幻方是BAT之外唯一能够储备万张A100芯片的公司,有报道在2023年就曾公布过国内囤积超过1万枚GPU的企业不超过5家。

但值得一提的是,无论是模型参数规模的缩减,还是算力创新争议都无法否定DeepSeek“小力出奇迹”打法的实质意义。首先,DeepSeek-R1在参数量仅为1.5亿(1.5B)的情况下,在数学基准测试中以79.8%的成功率超越GPT-4等大模型。

其次,轻量化模型天然在推理能力与性能方面表现更出彩,训练和运行成本也更低。据悉,DeepSeek以仅需1/50的价格提供了GPT-4类似的性能,在中小型企业和个人开发者中抢夺了一定的市场地位。

至于幻方对DeepSeek的加成,与其说是一场资本的偶然游戏,不如说是国产大模型成长的必然结果。值得注意的是,幻方量化算是国内第一批闯入大模型赛道的企业,早在2017年,幻方就宣称要实现投资策略全面AI化。

2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。

2023年11月,DeepSeek 的首个开源模型 DeepSeek-Coder发布。也就是说,这个引起海外科技巨头集体破防的DeepSeek不是一夜之间的产物,而是国产AI厂商在大模型布局中早晚要走的一步。

不可否认,当前国内已具备培育“DeepSeek ”的客观条件。公开资料显示,一个全面的人工智能体系正在各方资本的追捧下诞生,国内人工智能相关企业超过4500家,核心产业规模接近6000亿元人民币。

芯片、算法、数据、平台、应用……我国以大模型为代表的人工智能普及率达16.4%。

当然,DeepSeek的技术路径依赖风险始终存在,这也让DeepSeek的出圈多了一丝偶然,尤其“数据蒸馏技术”不断遭受重重质疑。事实上,DeepSeek并非第一个使用数据蒸馏的大模型,“过度蒸馏”甚至是当前人工智能赛道的一大矛盾。

来自中科院、北大等多家机构就曾指出,除了豆包、Claude、Gemini之外,大部分开/闭源LLM蒸馏程度过高。而过度依赖蒸馏可能会导致基础研究的停滞,并降低模型之间的多样性。上海交通大学也有教授表示,蒸馏技术无法解决数学推理中的根本性挑战。

总而言之,这些都在反逼DeepSeeK乃至整个国产大模型赛道继续自我验证,或许,国内还会诞生第二个“DeepSeek”,从现实的角度来看,DeepSeek成功的必然远远大于偶然。

二、“开源时代”要来临了吗?

值得注意的是,相比于技术之争,DeepSeek也再度引发了全球科技圈对开源、闭源的激烈论证。Meta首席科学家杨立昆还在社交平台上表示,这不是中国在追赶美国,而是开源在追赶闭源。

谈及开源模型,还要追溯到2023年Meta的一场源代码泄露风波。彼时,Meta顺水推舟发布了LLama 2开源可商用版本,顿时在大模型赛道掀起开源狂潮,国内诸如悟道、百川智能、阿里云纷纷进入开源大模型领域。

根据Kimi chat统计,2024年全年开源大模型品牌超过10个。2025年开年不足两个月,除了大火的DeepSeeK之外,参与开源者数不胜数。

据悉,1月15日,MiniMax开源了两个模型。一个是基础语言大模型MiniMax – Text – 01,另一个是视觉多模态大模型MiniMax – VL – 01;同时,NVIDIA也开源了自己的世界模型,分别有三个型号:NVIDIA Cosmos的Nano、Super和Ultra;1月16日,阿里云通义也开源了一个数学推理过程奖励模型,尺寸为7B。

从2023年到2025年,无数AI人才争论不休后,大模型的“开源时代”终于要来了吗?

可以确定的一点是,比起闭源模式,开源模型能在短时间内凭借其开放性获得大量关注。公开资料显示,当年在“LLama 2”发布之初,其在Hugging Face检索模型就有超6000个结果。百川智能方面则显示,旗下两款开源大模型在当年9月份的下载量就超过500万。

事实上,DeepSeek能快速走红与其开源模式分不开关系。2月统计显示,当前接入DeepSeek系列模型的企业不计其数,云厂商、芯片厂商、应用端企业皆来凑了把热闹。在AI需求鼎盛的当前,大模型开源似乎更能促进AI生态化。

但大模型赛道开源与否,其实还有待商榷。

Mistral AI、xAI虽然都是开源的支持者,但它们的旗舰模型目前都是封闭的。国内大部分厂商基本也是一手闭源,一手开源,典型的例子如阿里云、百川智能,甚至李彦宏一度是闭源模式的忠实拥趸。

原因并不难猜测。

一方面,在全球科技领域里开源AI公司都不受资本欢迎,反而是闭源AI企业在融资方面更有优势。数据统计显示,从2020年以来,全球闭源 AI 领域初创公司已完成 375 亿美元融资,而开源类型的 AI 公司仅获 149 亿美元融资。

这对花钱如流水的AI企业而言,其中的差距不是一星半点。

另外一方面,开源AI的定义在这两年愈发复杂。2024年10月份,全球开放源代码促进会发布关于“开源AI定义”1.0版本,新定义显示,AI大模型若要被视为开源有三个要点:第一,训练数据透明性;第二,完整代码;第三,模型参数。

基于这一定义,DeepSeek就被质疑不算真正意义上的开源,只是为了迎合短期声势。而在全球范围内,《Nature》的一篇报道也指出,不少科技巨头宣称他们的AI模型是开源的,实际上并不完全透明。

前几日,受到“打击”的奥尔特曼首次正面承认OpenAI的闭源“是一个错误”,或许,赶着DeepSeek的热度,一场AI界的“口水大戏”又要拉开序幕。

三、大规模的算力投入即将“暂停”?

这段时间,不少沉迷囤积算力的AI企业因DeepSeek的横空出世遭到冷嘲热讽,英伟达这类算力供应商还在股价上跌了一个巨大的跟头。坦白来说,DeepSeeK在某些方面的确带来了新的突破,尤其在“垄断诅咒”上,缓解了一部分焦虑。

但全球大模型赛道的算力需求依旧不可忽视,甚至DeepSeeK自身都未必能暂停算力投入。

需要注意的是,DeepSeek目前仅支持文字问答、读图、读文档等功能,还未涉及图片、音频和视频生成领域。即便这样,其服务器还困在崩溃的边缘,而一旦想要改变形式,算力需求则会呈爆炸式增长,视频生成类模型与语言模型之间的算力需求差距甚大。

公开数据显示,OpenAI的Sora视频生成大模型训练和推理所需要的算力需求分别达到了GPT-4的4.5倍和近400倍。从语言到视频之间的跨度尚且如此之大,随着各种超级算力场景的诞生,算力建设的必要性只增不减。

数据显示,2010年至2023年间,AI算力需求翻了数十万倍,远超摩尔定律的增长速度。进入2025年,OpenAI发布了首个AI Agent产品Operator,大有要引爆超级算力场景的趋势,这才是关系算力建设是否继续的关键。

据悉,当前大模型发展定义总共分为五个发展阶段:L1 语言能力、L2 逻辑能力、L3 使用工具的能力、L4 自我学习能力、L5 探究科学规律。而Agent位于L3 使用工具能力,同时正在开启对L4的自我学习能力的探索。

根据Gartner预测,到2028年,全球将有15%的日常工作决策预计将通过Agentic AI完成。如果大模型赛道按照规划预想地一路狂奔,从L1到L5,全球各大AI企业对算力的建设更加不会忽视。

到L3阶段,算力需求大概会是多少?

巴莱克银行在2024年10月份的一则报告中预测过,到2026年,假如消费者人工智能应用能够突破10亿日活跃用户,并且Agent在企业业务中有超过5%的渗透率,则需要至少142B ExaFLOPs(约150,000,000,000,000 P)的AI算力生成五千万亿个token。

即便超级应用阶段的到来还遥遥无期,在目前大模型赛道加速淘汰的激烈战场上,也没有一家企业甘愿落后一步。微软、谷歌、亚马逊、Meta、字节跳动、阿里、腾讯、百度……这些海内外的AI巨头只怕会继续花钱赌未来。

另外,DeepSeek最为人称道的莫过于绕开了“芯片大关”。

然而,作为算力产业的基石,相同投入下,优质的算力基础设施往往会提供更高的算力效率与商业回报。《2025年算力产业十大趋势》中提到过,以GPT-4为例,不同硬件配置下其性能会发生显著差异。对比H100和GB200等不同硬件配置驱动GPT-4的性能,采用GB200 Scale-Up 64配置的盈利能力是H100 Scale-Up 8配置的6倍。

DeepSeek一问三崩的服务器,或许暗示着大模型赛道的“追芯”游戏在算力角逐环节中迟迟未能结束。据悉,2025年,英伟达下一代GPU GB300可能会出现多个关键硬件规格变化,而国内的AI芯片国产化进程也星夜兼程。

种种迹象显示,辛苦的算力建设一时半会无法停止,反而更卷了。

本文由人人都是产品经理作者【道总有理】,微信公众号:【道总有理】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0 协议

相关推荐

如何设计一个优秀的电子商务产品详情页

加入人人都是产品经理【起点学院】产品经理实战训练营,BAT产品总监手把手带你学产品电子商务网站的产品详情页面无疑是设计师和开发人员关注的最重要的网页之一。产品详情页面是客户作出“加入购物车”决定的页面...

怎么在JS中使用Ajax进行异步请求?

大家好,今天我来分享一项JavaScript的实战技巧,即如何在JS中使用Ajax进行异步请求,让你的网页速度瞬间提升。Ajax是一种在不刷新整个网页的情况下与服务器进行数据交互的技术,可以实现异步加...

中小企业如何组建,管理团队_中小企业应当如何开展组织结构设计变革

前言写了太多关于产品的东西觉得应该换换口味.从码农到架构师,从前端到平面再到UI、UE,最后走向了产品这条不归路,其实以前一直再给你们讲.产品经理跟项目经理区别没有特别大,两个岗位之间有很...

前端监控 SDK 开发分享_前端监控系统 开源

一、前言随着前端的发展和被重视,慢慢的行业内对于前端监控系统的重视程度也在增加。这里不对为什么需要监控再做解释。那我们先直接说说需求。对于中小型公司来说,可以直接使用三方的监控,比如自己搭建一套免费的...

Ajax 会被 fetch 取代吗?Axios 怎么办?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发!今天给大家带来的主题是ajax、fetch...

前端面试题《AJAX》_前端面试ajax考点汇总

1.什么是ajax?ajax作用是什么?AJAX=异步JavaScript和XML。AJAX是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换,AJAX可以使网页实...

Ajax 详细介绍_ajax

1、ajax是什么?asynchronousjavascriptandxml:异步的javascript和xml。ajax是用来改善用户体验的一种技术,其本质是利用浏览器内置的一个特殊的...

6款可替代dreamweaver的工具_替代powerdesigner的工具

dreamweaver对一个web前端工作者来说,再熟悉不过了,像我07年接触web前端开发就是用的dreamweaver,一直用到现在,身边的朋友有跟我推荐过各种更好用的可替代dreamweaver...

我敢保证,全网没有再比这更详细的Java知识点总结了,送你啊

接下来你看到的将是全网最详细的Java知识点总结,全文分为三大部分:Java基础、Java框架、Java+云数据小编将为大家仔细讲解每大部分里面的详细知识点,别眨眼,从小白到大佬、零基础到精通,你绝...

福斯《死侍》发布新剧照 "小贱贱"韦德被改造前造型曝光

时光网讯福斯出品的科幻片《死侍》今天发布新剧照,其中一张是较为罕见的死侍在被改造之前的剧照,其余两张剧照都是死侍在执行任务中的状态。据外媒推测,片方此时发布剧照,预计是为了给不久之后影片发布首款正式预...

2021年超详细的java学习路线总结—纯干货分享

本文整理了java开发的学习路线和相关的学习资源,非常适合零基础入门java的同学,希望大家在学习的时候,能够节省时间。纯干货,良心推荐!第一阶段:Java基础重点知识点:数据类型、核心语法、面向对象...

不用海淘,真黑五来到你身边:亚马逊15件热卖爆款推荐!

Fujifilm富士instaxMini8小黄人拍立得相机(黄色/蓝色)扫二维码进入购物页面黑五是入手一个轻巧可爱的拍立得相机的好时机,此款是mini8的小黄人特别版,除了颜色涂装成小黄人...

2025 年 Python 爬虫四大前沿技术:从异步到 AI

作为互联网大厂的后端Python爬虫开发,你是否也曾遇到过这些痛点:面对海量目标URL,单线程爬虫爬取一周还没完成任务;动态渲染的SPA页面,requests库返回的全是空白代码;好不容易...

最贱超级英雄《死侍》来了!_死侍超燃

死侍Deadpool(2016)导演:蒂姆·米勒编剧:略特·里斯/保罗·沃尼克主演:瑞恩·雷诺兹/莫蕾娜·巴卡林/吉娜·卡拉诺/艾德·斯克林/T·J·米勒类型:动作/...

停止javascript的ajax请求,取消axios请求,取消reactfetch请求

一、Ajax原生里可以通过XMLHttpRequest对象上的abort方法来中断ajax。注意abort方法不能阻止向服务器发送请求,只能停止当前ajax请求。停止javascript的ajax请求...