新闻动态
DeepSeek对AI板块的影响
很多人都问我对DeepSeek的看法,但我等了一个星期才写,因为单纯讲我怎么看没任何意义,重要的是观察其他各方怎么看,再结合自己的一些认知进行分析。首先说明三点:
1. 我也好,网上各种帖子、讨论、文章也好,其实都主要讨论的是对相关股票短期情绪上的影响。抛开股票,DeepSeek到底如何影响AI产业发展,这当然是一个值得探讨的问题,但对多数股民而言并不重要,对短期股价也没什么影响。别看网上有些老师说的头头是道,其实都是针对的短期股价,不要被误导。
2. DeepSeek到底利好什么、利空什么,以市场为准,我说了不算,重要的是市场怎么理解、反应。我们来股市是炒股赚钱的,不是争对错、拼格局的。关注我的读者绝大部分应该持股周期不会超过1年,其实都是赚的情绪的钱。包括所谓的产业趋势其实也多是情绪,因为大多数情况下你不会等到产业趋势兑现。
3. DeepSeek是春节期间投资界最火的话题,但也不会一直持续,炒股的朋友们始终要向前看,保持关注新的催化和动向。在我看来DeepSeek是AI大模型技术积累到一定阶段时必然会出现的一个爆款,这只是个起点,接下来新的模型进展、应用很可能会层出不穷,会催生出源源不断的机会。
下面首先说一下我个人对DeepSeek-R1模型的认知理解,然后分类讨论对AI板块的影响。
0. 我对DeepSeek-R1模型的理解
DeepSeek-R1如果让我一句话评价,我的评价是:中国人最擅长的在现有技术天花板下对AI大模型的极致工程优化。
具体而言,DeepSeek-R1是在之前发布的DeepSeek-V3模型基础上,参考OpenAI o1模型的技术思路,采用了各种模型架构、计算方式上的创新和优化(包括FP8混合精度训练、PTX调用、强化学习等),使得模型能够以更高的运算效率、更低的算力成本达到非常接近OpenAI o1的效果。
其实这种成果在我看来是中国人迟早能搞出来的。这不是马后炮,2023年中我曾经写过一篇文章说投资中国的国运,其中有个观点就是现在的AI革命其实中国很快能追赶上去,因为比拼的主要是工程能力,而不是创新能力,即使需要创新,现在基础研究的进展都是全球共享,我们在基础研究上不会与国外存在代差。
如果做个类比,就是中国人从来都不擅长颠覆式创新,但擅长工程优化和应用。中国古代的四大发明都是工程优化,但能使得我们一直经济领先,直到西方搞出工业革命出现技术代差。互联网是西方发明的,但是互联网应用在中国搞的最好、花样最多。中国时至今日对于AI模型的基础研究没什么特别重要的贡献,但未来AI应用大概率也会是遍地开花。
当然,我对DeepSeek-R1的评价也就没有网上一些观点那么高,反超甚至碾压海外我觉得完全不存在。核心问题是我们离AGI(通用人工智能)还非常遥远。现阶段工程优化当然也重要,但是更重要的还是代际革新。
如果我们参考自动驾驶L1到L5的分级标准,给AI大模型也分级,那么我认为现在可能AI大模型整体发展到了L2级别,而DeepSeek现在有能力逼近L2的天花板。但是,如果AI大模型没有代际革新,那么DeepSeek再厉害,也就只有L2的能力。
有些人觉得OpenAI被DeepSeek比下去了,我觉得没有。这里我不是不认可DeepSeek,只是觉得两家的任务不一样。OpenAI现在的任务是推出GPT5,是把大模型整体级别从L2推向L3。如果能够实现,那么未来DeepSeek有望在此基础上推出效果比肩GPT5但成本更低的模型。但如果没有GPT5,或者说如果AI大模型的代际不革新,那么DeepSeek目前还没有实力去推进这件事。
事实上,OpenAI是在GPT4的基础上做出的o1,最近看到DeepSeek-R1这么火,又推出了o3。如果OpenAI定位跟DeepSeek一样,那他们可以接着去做o4、o5、o6,大概率也可以做出R1这种效果,但是没必要,人家现阶段的主要工作和目标是做出GPT5。
我这种评价肯定会让一些爱国人士看着不舒服,但其实我并没有贬低DeepSeek的意思,只是觉得R1的成就没有网上一些人吹得那么夸张。虽然不是代际革新,但工程优化当然也是有意义的,对于AI模型的应用推广、端侧部署都有重要意义。我只是希望更多人能理性看待,不要故步自封。
虽然但是,我上面这些其实多数都是废话,因为市场上既然多数人觉得DeepSeek拳打OpenAI、脚踢Meta,那么节后DeepSeek直接相关的概念股大概率就要顶板;既然多数人都觉得DeepSeek的低成本证伪或者降低了算力需求,那么NV链就受到很大压制。一码归一码,我怎么看不重要,大家还是把重点放在炒股上。下面分析的影响,主要也是讨论短期影响,中长期会提但是不重要。
DeepSeek对算力的影响
总的来说肯定是利好算力总盘子扩大,但影响算力结构。这几天杰文斯悖论已经被全网科普,说的是虽然技术突破带来效率提高,但总资源消耗量依然增加。在DeepSeek这件事上,不管这个模型对行业的影响如何,不可能解读为缩减整体算力需求,只会改变算力需求结构。虽然单个模型的算力需求降低,但是爆款催生出海量推理算力需求,也会催化应用、端侧产品的开发,催生出端侧算力需求。
1.1 云端算力
1.1.1 训练算力 vs. 推理算力
短期来说,目前市场的一致观点是利空训练算力、利好推理算力。
为什么利空训练算力,主要是DeepSeek展现出了模型架构和算法优化对大模型训练降本的潜力,V3(R1的基础模型)单次训练成本只要558万美元(但没有包括前期成本),R1大概率降本也是做到了业内天花板。所以现在市场解读就是训练大模型不再需要以前想象的夸张算力,甚至可能Scaling law(简单理解就是堆算力、大力出奇迹)都不需要了,要大幅下修训练算力需求。
为什么利好推理算力,大模型单次推力所需的算力很低,但是一旦成为爆款,推理端的需求就是巨大的。DeepSeek-R1不仅是模型本身成了爆款,还有一个重要的点是它是开源模型、其他公司都可以借鉴模仿,而且它的技术路径也确实具有可复制性,未来被其他大模型公司以及垂直应用公司采用后,可能驱动AI应用的爆发,带来海量的推理端需求。
股价上怎么反应,主要是利空NV,利好ASIC。NV的卡既可以用于训练也可以用于推理,但是在训练方面壁垒更高(其他卡几乎不能用于训练、只能用于推理),所以就构成边际利空。
再次强调,我说的是短期影响,说实话中长期看我觉得不对NV构成利空,因为NV的逻辑主要是推进下一代模型和Scaling law。前面已经说了,DeepSeek在我看来只是工程优化上的成就,OpenAI等海外公司疯狂搞算力建设是为了利用Scaling law怼出下一代模型,DeepSeek-R1跟这件事没有直接关系。
当然,平心而论其实也还是有一点关系:DeepSeek的成功可能会让一些大模型公司转变发展思路。不是每家公司都有能力推进代际革新,可能会有更多公司意识到与其去跟OpenAI竞争,还不如去做好优化和应用。这样就剩下OpenAI等少数公司去搞代际革新,多数公司搞优化应用,从这个角度讲确实也可能是利空训练算力。
1.1.2 Scaling out vs. Scaling up vs. 不Scaling
Scaling out在算力领域主要是指机柜之间的互联,跟训练关系比较大,所以现在市场解读为利空,主要影响光模块、交换机。
Scaling up在算力领域主要指增加机柜内芯片数量、算力密度,跟训练、推理都有关系,但反正推理算力也需要scaling up,所以目前市场部分解读为利好,主要利好铜连接。硅光(CPO、OIO)本来也可以用于scaling up,但是一是本身就还没商用,二是对当前阶段推理而言可能铜连接够用,所以解读为部分利空。
不Scaling,指的就是现在有些人觉得整个Scaling law都坍塌了,不需要算力、算力密度了,这就很难评,我觉得scaling up大概率还是要做的,scaling out就见仁见智,反正OpenAI肯定还是要搞。
1.1.3 国产算力
这次事件我觉得不管短期还是长期都是利好国产算力,唯独这一点我是真的觉得逻辑上怎么想都没毛病。感兴趣的朋友可以去看海外大模型公司Anthropic CEO Dario Amodei最近写的一篇文章《On DeepSeek and Export Controls》,呼吁要强化对中国的AI算力限制。本身国产算力卡,不管是HWJ还是ST,主要都是用于推理,这几天也有ST适配DeepSeek-R1模型用于推理的新闻,所以边际上都是利好。
1.1.4 算力租赁
算力租赁总的来说是偏利好的,因为这个赛道更多跟算力总盘子相关,没有特别偏向训练或者推理。而且目前网上讨论的一个点是DeepSeek会让很多小公司尝试开发自己的轻量模型或者基于R1部署自己的应用,这些公司一般都会采用算力租赁。还有一个佐证是最近NV H100的租赁价格涨价了。
1.2 端侧算力
端侧算力就没啥好讨论的,普遍都认为是利好。前面已经说了,DeepSeek-R1是开源模型,而且可以被蒸馏到100B以下装载到端侧比如手机、电脑上本地运行,确实对端侧构成利好。比如AI眼镜、AI玩具开发者可能根据R1开发出爆款产品,比如AI手机、PC可能接入R1模型效果更好、催生换机潮,比如未来每家公司或者个人都可以基于R1生成自己专有的模型,以求数据本地化或者个人定制化。往更大说,DeepSeek-R1更大的意义是代表着大模型达到一定阶段后开始催生工程优化和应用,未来哪怕R1过气了,还会有更多更好的通用大模型或垂类模型出来,都是利好端侧算力。
AI端侧A股也炒了挺久,主要两条思路,一是关注绕不开的东西,比如有实力的芯片、芯片模组厂商,不管哪家产品可能都要用到的。二是关注可能做出爆款的品牌商或代工厂。
2. DeepSeek对应用的影响
DeepSeek本身就有App,目前爆火,但问题是没啥股票跟它有直接关系。那么就是讨论DeepSeek-R1代表的大模型效率优化、开源对AI应用领域的影响。
2.1 大模型
前面已经说了,不认为DeepSeek做出R1就代表碾压OpenAI,毕竟两家的目标定位都不一样,但确实也觉得可能会影响一些不上不下的大模型公司。对于一些不上不下的大模型公司而言,在大模型的代际革新上也没看到什么成果,应用推广也做得很一般,这种可能真的需要转变一下发展方向,如果不转变的话可能会挂的更快。
对于做大模型的上市公司或者相关概念股而言,比如某数字、某飞、某维、某包概念等,我觉得要跟踪判断。如果这些公司接下来也学习DeepSeek做好工程优化,同时做好应用推广,比如根据自己的业务属性在搜索、教育等领域做好细分体验,那么是可以看好的。如果这些公司还是半吊子,或者长时间还是打不过R1,那么要谨慎,甚至可能需要看空。
2.2 垂直应用
如果DeepSeek-R1对于AI模型技术真的有什么特别的意义,那我认为是极大利好垂直应用。前面也说了很多遍,R1本身是个开源模型,而且训推成本较低,开发者都可以基于这个模型自行开发垂直应用。
另外引申一个点,我们回到R1模型的本质:基于V3通用大模型、采用RL强化推理能力的推理模型。相比于通用大模型而言,推理模型的优点是能够分析具体问题。
AI炒了两年,曾经有段时间不少人吹垂直应用,但事实证明一直没有好的垂直应用做出来,因为难度确实很大。在大模型技术(指狭义的LLM)兴起前,AI研究主要集中在监督学习(supervised learning)上,简单理解就是训练模型去完成某个具体任务,但是一直效果不好,因为这好比不让人接受任何基础教育就直接上岗工作,模型缺乏基本的语言、文化、逻辑概念,只是被告诉一个任务怎么做是对的、怎么做是错的,学来学去还是学不好。LLM狭义上是一种非监督学习(unsupervised learning),模型训练的时候没有具体任务,而是让模型自行在海量数据中去挖掘规律,其实相当于先让模型接收基础教育。然后再结合强化学习等监督学习算法,以期获得解决任务能力。
虽然但是,两年过去了并没看到垂直应用有什么大的推广。这次DeepSeek R1实际上简单理解也就是LLM+RL,牛逼的地方就是在于证明了大模型+监督学习能让模型产生解决任务的能力。我个人理解是利好垂直应用的。可能之前一些效果不佳的垂直应用,这次参考一下R1的训练方法,没准就做成了。
2.3 PAAS、IAAS、SAAS、MAAS
看到有人点评说利好PAAS。这里先比较一下四个概念的区别。IAAS指基础架构即服务,大概意思是服务商提供一个基础架构,客户基于此自己开发定制上面的各种软硬件。PAAS指平台即服务,一般服务商会把硬件架构也提供好,客户自己调控系统软件。SAAS指软件及服务,所有APP、软件基本都是SAAS,客户只要直接用就行了。MAAS指模型即服务,一般是整合不同的AI模型方便客户调用,或者帮助客户开发定制模型。
逻辑上DeepSeek本身跟这四个概念没啥直接关系,考虑到DeepSeek可能催生的本地模型部署、垂直应用开发、开源模型热潮,那么确实是重点利好PAAS和MAAS,IAAS门槛较高,多数开发者用不上,SAAS只能具体问题具体分析,看未来到底哪些应用能成为爆款。现在听过PAAS、MAAS平台都接入了DeepSeek模型,这几天有不少新闻,比如亚马逊Bedrock市场纳入DeepSeek-R1模型。
2.4 数据
DeepSeek利不利好数据,我觉得很难评,原则上跟训练算力一样是存在利空的,因为训练难度降低了。对于Scaling law的信仰崩塌而言,理论上算力和数据的信仰都可以崩塌,算力的指数级提升是要搭配数据量的提升的,现存数据用完了就是合成数据、虚拟环境。
有传言说DeepSeek雇了一些人生产高质量语料,但这个也很难找到标的炒。A股那家做数据标注的公司业绩太过辣鸡,因为本身这个赛道就有很大逻辑问题。
网上还有些老师在讨论什么R1-Zero到底用没用SFT、需不需要标注数据,RL本身就是一种监督学习,是需要标注数据的,不然怎么奖励、强化模型,只是说不用SFT的话对标注数据要求就没那么高,可能只需要判断任务成功与否的标注就可以了。
2.5 SFT、数据蒸馏、RL、MoE等概念
都是题材瞎炒。每次看到A股隔段时间炒什么神经网络之类的概念就觉得无语,这些都是基本的AI算法派系,每家有开发AI模型能力的公司都可以说自己家有神经网络、SFT、数据蒸馏、RL、MoE等技术。
最后说一点,NV链应该还是不少朋友有持仓的。事到如今,中长期角度我也不认为有什么特别大的逻辑影响,但短期情绪上确实是有压制的。除了NV自己以外,其实多数产业链公司的估值也就是打到了今年预期利润的合理估值倍数,远期下调就下调吧,如果今年能放出业绩来,依然是低估的。而且有些NV链公司其实长逻辑并不是绑定的NV,推理端、ASIC路线也是受益的,但是短期可能都会通杀。
当然,也不排除像有些老师说的一样,后面因为大模型公司普遍转向应用推广,那么就要降低推理成本,挤压上游算力链的利润,极端情况下算力产业链光伏话也不是不可能。但只能说目前我还没看到迹象,只能是走一步看一步了。
(来源 酷马投研)
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。上一篇:芳草百味 | 它是岭南大地上常见的神奇野草,清热解毒样样行!
下一篇:没有了