DeepSeek引发推理需求激增,英伟达的“算力霸权”出现裂缝,一个由ASIC芯片主导的算力革命新时代正缓缓拉开帷幕。
据芯流智库消息,DeepSeek正筹备自研AI芯片。而国内大厂如阿里、百度、字节等,早已开启“自研”之路。
远在大洋彼岸,年初OpenAI自研芯片有了新进展,外媒称博通为其定制的首款芯片将在几个月内在台积电流片。此前还传出Sam Altman计划筹集70000亿美元打造“芯片帝国”,集设计与制造于一体。此外,谷歌、亚马逊、微软、Meta等也纷纷加入“自研热潮”。
很明显,无论是DeepSeek、OpenAI,还是中国公司和硅谷大厂,都不想在算力时代落后。而ASIC芯片,或许会成为他们进入新世界的“入场券”。
这场“自研浪潮”是否会“击败”英伟达,或者“造就”第二个英伟达,目前尚无定论。
不过,产业链上游企业已敏锐察觉到这一趋势,如为大厂提供设计定制服务的博通,业绩大幅增长。2024年其AI业务收入同比增长240%,达37亿美元;2025年第一季度AI业务营收41亿美元,同比增长77%,其中80%来自ASIC芯片设计。在博通看来,ASIC芯片市场规模超900亿美元。
从GPU到ASIC,算力经济学的分水岭
低成本是AI推理爆发的必要条件,而通用GPU芯片却成了AI发展的制约因素。
英伟达的H100和A100在大模型训练领域占据主导地位,B200、H200也备受科技巨头青睐。《金融时报》援引Omdia数据显示,2024年,英伟达Hopper架构芯片的主要客户有微软、Meta、Tesla/xAI等,其中微软订单量达50万张。
然而,作为通用GPU的领导者,英伟达产品的弊端也逐渐显现:成本高昂且能耗冗余。
成本方面,单个H100售价超3万美元,训练千亿参数模型需上万张GPU,加上后续网络硬件、存储和安全等投入,总计超5亿美元。汇丰数据表明,最新一代的GB200 NVL72方案,单机柜超300万美元,NVL36约180万美元。即便如此,在算力充足的硅谷,资本支出仍未减速。不久前,马斯克旗下xAI公布的Grok – 3,训练服务器规模达20万张GPU。
腾讯科技联合硅兔赛跑的文章指出,超大规模数据中心运营商2024年资本支出预计超2000亿美元,2025年将接近2500亿美元,且主要资源将向人工智能倾斜。
能耗方面,SemiAnalysis测算,10万卡H100集群总功耗150MW,每年耗电1.59TWh,按0.078美元/千瓦时计算,每年电费达1.239亿美元。而OpenAI数据显示,推理阶段GPU算力利用率仅30% – 50%,效率低下,浪费严重。
谷歌此前公布的TPU V4与A100针对不同架构模型的训练速度
性能虽好但价格贵、效率低,还有生态壁垒,过去一年业内都在抱怨“受英伟达制约已久”。云厂商失去硬件自主权,供应链存在风险,AMD又发展不佳,这些因素促使巨头开始自研ASIC专用芯片。
至此,AI芯片战场从技术竞赛转向经济性博弈。西南证券研究表明,“当模型架构趋于稳定,算力投入需产生可量化的经济收益。”
从北美云厂商反馈来看,ASIC已展现出替代优势:
谷歌:博通为其定制的TPU v5芯片在Llama – 3推理场景中,单位算力成本较H100降低70%。
亚马逊:3nm制程的AWS Trainium 3,同等算力下能耗仅为通用GPU的1/3,年节省电费超千万美元;2024年Trainium芯片出货量超50万片。
微软:IDC数据显示,微软Azure自研ASIC后,硬件采购成本占比从75%降至58%,摆脱了议价困境。
博通作为北美ASIC产业链的最大受益者,相关数据趋势明显。2024年其AI业务收入37亿美元,同比增长240%,80%来自ASIC设计服务;2025年第一季度AI业务营收41亿美元,同比增长77%,预计第二季度AI营收44亿美元,同比增长44%。博通曾在年报中预测2027年ASIC收入将大幅增长,市场规模有望达900亿美元,在第一季度电话会议中再次强调。
凭借这一产业趋势,博通成为全球第三家市值破1万亿美元的半导体公司,也带动了市场对Marvell、AIchip等公司的关注。
图:市面主流GPU与ASIC算力成本对比 资料来源:西南证券
需要明确的是,“ASIC虽有优势,但不会取代GPU”。微软、谷歌、Meta等既在自研芯片,又在抢购英伟达B200,说明二者并非直接竞争关系。
客观来看,GPU仍将主导高性能训练市场,在推理场景中,因其通用性仍是主要芯片。但在未来近4000亿美元的AI芯片市场中,ASIC的发展路径逐渐清晰。IDC预测,2024 – 2026年推理场景中,ASIC占比将从15%提升至40%,最高可达1600亿美元。这场变革的最终结果可能是:ASIC占据80%的推理市场,GPU专注于训练和图形领域。真正的赢家将是那些既懂芯片技术又了解应用场景的企业,英伟达是其中之一,看好ASIC并非唱衰英伟达。而我们要寻找的是除英伟达之外的这类企业,探索ASIC新纪元的商机。
ASIC的“精准裁剪”,去除非核心模块
大家对SoC、CPU、GPU较为熟悉,FPGA应用市场较小,而ASIC相对陌生。
图:算力芯片对比 资料来源:中泰证券
那么,为何说ASIC有利于AI推理,它究竟是什么样的芯片呢?
从架构上看,GPU等通用芯片为满足图形渲染、科学计算和不同模型架构等多元需求,大量晶体管资源被用于非核心功能模块,造成浪费。英伟达GPU有众多“小核”,开发者可借助CUDA算子库调用这些“小核”进行并行计算。但如果下游模型和计算任务确定,就不需要这么多“小核”来保证灵活性,这就是ASIC的底层原理,因此它也被称为全定制化高算力芯片。
通过精准裁剪,ASIC仅保留与目标场景相关的硬件单元,效率大幅提升,谷歌和亚马逊的产品已验证这一点。
谷歌TPU v5e AI加速器实拍
对于GPU,英伟达的CUDA是最佳调用工具;而对于ASIC芯片,云厂商自研的算法就可实现调用,这对软件出身的大厂来说并不困难。例如,谷歌TPU v4中,95%的晶体管资源用于矩阵乘法单元和向量处理单元,专为神经网络计算优化,而GPU中类似单元占比不足60%。
与传统冯·诺依曼架构的“计算 – 存储”分离模式不同,ASIC可根据算法特征定制数据流。如博通为Meta定制的推荐系统芯片,计算单元直接嵌入存储控制器周围,数据移动距离缩短70%,延迟降至GPU的1/8。
针对AI模型权重的稀疏特性,亚马逊Trainium2芯片嵌入稀疏计算引擎,可跳过零值计算环节,理论性能提升300%。
当算法固定,在特定垂直场景中,ASIC具有天然优势,其设计目标是让芯片成为算法的“物理体现”。
在历史和现实中,ASIC都有成功案例,如矿机芯片。早期用英伟达GPU挖矿,随着难度增加,电力消耗超过收益,专用ASIC芯片应运而生。虽然通用性不如GPU,但矿机ASIC将并行度发挥到极致。例如,比特大陆的比特币矿机ASIC部署数万个SHA – 256哈希计算单元,实现单一算法下的超线性加速,算力密度是GPU的1000倍以上,同时大幅降低能耗。此外,使用ASIC可精简外围电路,主板面积减少40%,整机成本下降25%。
低成本、高效率,能实现硬件与场景深度融合,ASIC的这些特点符合AI产业从“粗放堆算力”到“精细化效率革命”的转型需求。随着推理时代到来,ASIC成本优势将重现矿机芯片的发展历程,实现规模效应下的成本优势。尽管初期研发成本高(单芯片设计费用约5000万美元),但其边际成本下降速度远快于通用GPU。以谷歌TPU v4为例,出货量从10万片增至100万片时,单颗成本从3800美元降至1200美元,降幅近70%,而GPU成本降幅通常不超过30%。据产业链消息,谷歌TPU v6预计2025年出货160万片,单片算力较前代提升3倍,ASIC性价比不断提高。
这也引出一个问题:是否所有企业都能参与自研ASIC呢?这取决于自研成本和市场需求量。以7nm工艺的ASIC推理加速卡为例,一次流片涉及的IP授权、人力、设计工具和掩模板等费用可能达亿元级别,还不包括量产成本,大厂在资金方面更具优势。目前,谷歌、亚马逊等云厂商有成熟客户体系,能形成研发、销售闭环,在自研方面有先天优势。Meta则因内部有大量算力需求而选择自研,今年初扎克伯格透露,计划2025年上线约1GW计算能力,年底前拥有超130万张GPU。
“新市场”价值超千亿美元
仅挖矿需求就催生了近100亿美元的市场,所以博通2024年底提出AI ASIC市场空间为700 – 900亿美元时,我们并不惊讶,甚至认为这个数字可能保守。
如今,ASIC芯片的发展趋势已毋庸置疑,关键是掌握其市场竞争规则。
近千亿美元的AI ASIC市场已形成三大梯队:“规则制定者”、“产业链配套商”和“垂直场景Fabless企业”。
第一梯队是ASIC芯片的设计者和制造者,他们能制造单价超1万美元的芯片,并与云厂商合作商用,代表企业有博通、Marvell、AIchip,以及代工巨头台积电。
第二梯队是产业链配套企业,包括先进封装和下游产业链。先进封装方面,台积电CoWoS产能的35%已转向ASIC客户,国内对应的有中芯国际、长电科技、通富微电等。云厂商与英伟达硬件方案解耦带来新硬件机会,如AEC铜缆,亚马逊自研单颗ASIC需配3根AEC,若2027年ASIC出货700万颗,对应市场超50亿美元,服务器、PCB等也将受益。
第三梯队是专注垂直场景的Fabless企业。ASIC市场由需求驱动,谁能率先发现场景痛点,谁就掌握定价权。其定制化特点与垂直场景天然契合,如智驾芯片,随着比亚迪等企业发力智驾,这类产品进入爆发期。
全球ASIC产业链三大梯队的机会,可看作国产企业的“三把钥匙”。受禁令限制,国产GPU与英伟达差距较大,生态建设也需时日,但在ASIC领域,我们与海外处于同一起跑线。结合垂直场景,国内不少Fabless企业能推出更高效的产品,如矿机ASIC、智驾ASIC、阿里平头哥的含光、百度的昆仑芯等。芯片制造主要依赖中芯国际,中兴旗下的中兴微等新企业也可能与国内厂商合作,竞争“中国博通”的地位。
左图为英伟达数据中心产品主要上游供应商,来源Fubon Research ,右图GB200 NV72L机柜的总长接近2英里的NVLink Spine铜缆
产业链配套环节技术难度相对较低,国内企业在服务器、光模块、交换机、PCB、铜缆等领域竞争力较强。这些企业与国产算力产业相互依存,ASIC芯片产业链也将从中受益。在应用场景方面,除智驾芯片和AI推理加速卡外,国产设计公司的机会取决于哪些场景能快速发展,以及哪些企业能抓住机遇。
结语
当AI从大规模训练竞赛转向追求推理能效时,算力战争的下半场将属于那些能将技术创新转化为经济效益的公司。
ASIC芯片的崛起,不仅是一场技术革命,更是关于效率、成本和话语权的商业启示。
在这场新竞争中,中国企业的机会正在增加,机遇总是留给有准备的人。
2 本站部分内容来源于网络,仅供学习与参考,如有侵权,请联系网站管理员删除
3 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
4 精准获客感谢您的访问!希望本站内容对您有所帮助!
暂无评论内容