

新智元报谈

【新智元导读】DeepSeek正用开源、降价和底层架构革命,重画AI硬件生态的成本弧线,把运筹帷幄指向十万亿好意思元产业与AGI的星辰大海。
DeepSeek最近动作时时。
先是5月22日,彭博社爆出他们正在股东700亿元东谈主民币的融资,投前估值高达450亿好意思元。

归并天,DeepSeek官宣V4-Pro API永久降价75%——把促销价凯旋焊死成正价。
一边向投资东谈主要钱,一边向竖立者让利。这操作,几许有点让东谈主无极。
那么问题来了,DeepSeek到底要靠什么赢利,何况还要赚好多好多钱?
毕竟,AGI可不是能口嗨出来的。
这恰是x博主@bookwormengr最近磋磨的一个狠问题。
他在长文《DeepSeek's 10 trillion USD grand strategy》中提议一个相当骁勇的判断:DeepSeek信得过的星辰大海,可能不是卖编程套餐,不是卖语音助手,而是参与塑造一个价值10万亿好意思元级别的AI硬件生态,并在这个生态里冲击万亿好意思元级估值。

仔细读完@bookwormengr的这篇万字长文,你会发现:梁文锋不是疯子,他是棋手。
何况是高东谈主,他下的是一盘价值10万亿好意思元的棋。

袼褙之旅
一场反共鸣的时间长征
转头DeepSeek的成长轨迹,用「袼褙之旅」来形色不为过。
在所有东谈主都在堆Dense模子、卷参数目的时间,DeepSeek去啃最难训的MoE(羼杂内行模子),用更少的规画量撬动更高的智能。
别东谈主用PPO作念强化学习,他们从第一性道理开赴,发明了更低廉的GRPO算法。
别东谈主还在盘问RLHF的天花板,他们还是跑通了RLVR(基于可考据奖励的强化学习),把推理才智拉上了新台阶。
MLA、DSA(解耦疏淡细心力)、mHC(流形敛迹超聚拢)、CSA和HCA——这些都不是论文里的花拳绣腿,每一项都在恢复归并个问题:何如在有限的硬件条目下,榨出最大的AI算力?
袼褙从来不是一初始就知谈我方的职责。他在路上约束战争、约束发现,最终找到了我方的终极宿命。
DeepSeek的宿命,从来都不是卖API套餐。

一谈道理的数学题
KV Cache的机密
让咱们从一个具体的数字初始讲这个故事。
掀开kvcache.ai的在线规画器,输入100万token高下文、8bit KV精度、16bit索引精度,你会看到一组让东谈主瞠主张对比:DeepSeek V4仅需 5.48GB HBM。

比较之下,其他顶级开源模子则动辄需要 60GB HBM。
细心,DeepSeek V4是一个1.6万亿参数的模子,体量渊博于其他开源模子,KV Cache占用却惟有它们的零头。
这意味着DeepSeek不错把缓存射中的价钱定到一个令东谈主发指的低位——V4-Pro缓存射中价仅0.025元/百万Token,不到Claude Sonnet 4.6同类价钱的3%,何况不错抓续缓存数小时。
永久降价后,输入缓存未射中3元/百万Token,输出6元/百万Token,全部是原价的四分之一。

梁文锋两年前就说过DeepSeek的订价玄学:咱们的原则是不贴钱,也不赚取暴利。
当今看来,他说的是真话——当你的KV Cache惟有别东谈主的十分之一,你的成本即是别东谈主的零头。
但更深的问题是:这个红利到底流向了那处?

十万亿好意思元的棋盘
硬件生态的重构
谜底藏在三个缩写里:SSD、LPDDR、HBM。
第一层:SSD与NAND闪存。 KV Cache被压缩到极小之后,不错高效地卸载(offload)到SSD上,等需要时再快速加载回HBM。
DeepSeek在Dual Path论文中还挑升优化了从SSD加载KV Cache的速率。这凯旋减少了对激动HBM的依赖。
谁是SSD和NAND闪存的大玩家?DeepSeek每压缩一分KV Cache,就在为NAND和SSD创造一个雄伟的新商场。
第二层:LPDDR内存。SGLang团队发表的磋磨标明,LPDDR都备不错动作「权重暂存区」——模子权重先放在LPDDR里,2026世界杯即时比分需要时再流式传输到HBM中,大幅缓解HBM的容量压力。


DeepSeek的MoE架构自然适配这个决策:内行数目多、权重不错4bit量化,流式加载相当高效。
谁在作念LPDDR?国产速率只过期0.5代,密度过期1代,追逐的脚步还是很近。
第三层:GPU/ASIC的减压。 Engram模块用LPDDR中的哈希查表替代Transformer的前向传播规画,实质上是用每比特成本极低的「内存读取」替代每比特成本极高的「GPU运算」。
这对中国AI芯片真谛真谛紧要——由于EUV光刻机受限,国产GPU在原始FLOPs上过期。但若是你能用更多的低廉内存来替代更少的激动算力,那这种「换谈超车」就变得合理了。
再加上TileLang——DeepSeek投资的跨硬件内核编译框架,不错让一套规画代码同期跑在多种硬件平台上,特地于绕过了「CUDA护城河」。国产芯片厂商,都有可能因此取得生态层面的碎裂。
当今你明显了吗?DeepSeek作念的每一项时间革命,都在指向归并个标的:裁汰对顶级硬件的依赖,让中国现存的存储、芯片、相聚生态变得有余用,甚而好用。

@bookwormengr算了一笔大账:民众AI干系股票的总市值早已远超10万亿好意思元。
若是DeepSeek能匡助中国构建一个等量级的AI硬件生态,它我方在这盘棋里拿到1万亿好意思元的估值,都备稳妥逻辑。


不赚快钱的逻辑
回头看DeepSeek的所有「不作念」——不作念多模态(V4.1才初始试水图像和音频)、不作念语音模子、不作念视频模子、API一降再降——就说得通了。
不是「不会赢利」,而是「暂时不屑于赚这种钱」。
@bookwormengr提议了一个精彩的类比:OpenAI拿到了AMD和Cerebras的股权认购权证,只须终了算力采购里程碑就不错廉价买入股票。这实质上是「用情愿换股权」——你帮我造芯片,我给你订单,咱们沿途把蛋糕作念大。

DeepSeek都备不错复制这个模式。
只不外它靠近的不是AMD和Cerebras,而是整条国产AI硬件产业链。
梁文锋是量化基金出生,被称为「 Jim Simmon的针织粉丝」。这么一个东谈主,不行能不懂本钱运作的精妙之处。
事实上,融资音讯传出前,他还是在2026年4月完成了一次要津的股权调遣——通过凯旋与曲折抓股禁止公司约84.29%的股权,表决权100%。

宁德时间投DeepSeek——它要锁定将来AI数据中心的储能订单。京东、网易入局,各有各的计策诉求。
国度大基金下场,更是把DeepSeek定位成了国度级AI基础递次。
这些投资者看到的,不是一个卖API的小交易。他们看到的,是一个可能重塑民众AI硬件方法的计策支点。

终极职责
大限度强化学习与AGI
但若是你认为DeepSeek的绝顶是「作念中国AI硬件生态的发动机」,那可能如故低估了梁文锋。
据彭博社报谈,梁文锋在投资者会议上明确表态:DeepSeek的主要运筹帷幄是推动时间规模,追求AGI。

硬件生态是技巧,AGI才是主张。
逻辑是这么:当更多硬件选拔变得可用、当算力需求自身被时间革命大幅压低,DeepSeek就能以更低的成本启动更大限度的训导——绝顶是强化学习(RL)后训导和递归自我改变(RSI)。
大限度RL意味着模子需要生成海量的推理轨迹——万亿级token的生成量,规画成本极其恐怖。而100万高下文的长程任务,要求轨迹自身也有余长。
若是莫得极致的硬件成果优化,这种训导根柢跑不起来。
RSI则愈加骁勇——让AI我方瞎想实验、施行实验、分析收尾、改变自身。这是一个试错密度极高的历程,对算力的需求是无底洞。
但若是DeepSeek通过重构硬件生态把算力成本打下来,这条路就变得可行。
从MoE到MLA,从DSA到CSA,从Engram到TileLang,从KV Cache压缩到LPDDR流式加载——所有这些革命,最终都累积到归并个绝顶:让AGI的训导从「烧不起」形成「烧得起」。
梁文锋与DeepSeek的星辰大海,从来不是海面上的浪花2026世界杯指数,而是洋流自身。