算力链公司发布业绩预告,实现快速增长,持续验证AI带动的算力行业景气度依然较高。当前位置,AI大模型的竞争与迭代仍在持续,意味着算力投资大概率依然维持较高强度,因此继续推荐算力板块:一是业绩持续高增长且估值仍处于历史较低水平的北美算力链核心标的;二是有望享受外溢需求、取得客户或份额突破的公司;三是上游紧缺的环节;四是随着GB300的批量出货,建议重点关注 1.6T光模块及CPO产业链;五是随着H20供应恢复、NV将向中国推出全新GPU等,建议关注国产算力链。
随着各方面应用的加速,AI算力消耗开始从训练走向推理,同时主权AI加大投入,带来显著的算力增量。探究背后增量需求主要来自四方面:
一是各家互联网大厂纷纷加速AI与原有业务结合,如谷歌搜索在今年5月21日正式迎来 AI 模式,并逐步在美国市场推出,考虑到谷歌搜索全球范围内年搜索量为5万亿次+,假设单次回答平均为2000token,则该功能都将带来日均27万亿token消耗(超过其Gemini模型目前日均16万亿token消耗),类似案例如抖音搜索、微博AI智搜,搜索功能开始从普通服务器迁移到AI服务器并重塑所有搜索体验,类似的视频编辑、剪辑功能也被AI重塑;
二是Agent和深度思考推理的结合,通过两者结合,Agent执行任务准确率大幅提高,Agent执行一次任务平均消耗token达到10万的量级,大幅超过AI搜索单次问答token消耗,并且能延伸到更多开放式场景,同时多Agent协作的群体智能也已开始逐步商用化,过去复杂、多步骤的任务可通过Agent实现,Agent的普及将带来推理算力需求的大幅增长;
三是多模态,随着多模态生成的图片及视频质量今年均显著提升,今年AI营销内容占比提升十分明显,根据《2025中国广告主营销趋势调查报告》显示“超过50%的广告主,已经在生成创意内容时使用AIGC,并且AI营销内容占比超过10%”,而一分钟视频的生成token消耗基本在10万token至百万token量级,目前多模态模型开始步入快速商业化阶段,如快手可灵四五月连续两月付费金额超过1亿,多模态的加速渗透带来明显的算力需求提升。
四是主权AI,科研和军事领域是关键,随之扩展到其他各行业的效率提升,典型代表为美国重点推进其“星际之门”计划。与之而来的是各国政府也纷纷开启主权AI的投资计划,尤其是以欧洲、中东、日本等国为代表,投资体量超过3000亿美金。
算力方面从投资角度来看,一是随着推理占比的提升,云计算厂商投入产出比逐渐清晰,并且超卖率有望继续提升,从而带动利润率提升;二是围绕机柜增量变化及新技术投资,25年下半年核心是英伟达NVL72机柜上量,其中液冷散热、铜连接、电源变化最大:三是围绕估值性价比、景气度投资,重视PCB、光模块等供应链。
1)散热方面:散热方面将是AI算力领域未来几年核心技术升级方向之一,英伟达单卡功耗从700瓦到1200、1400瓦,未来有望迭代至2000瓦+,并且大机柜、超节点的出现,热源的叠加使得散热难度进一步提升,因此散热成为了接下来持续迭代升级的方向。其次,目前供应商以台系、美系厂为主,如Coolermaster、AVC、BOYD及台达等,中国大陆供应商比例较低,随着液冷散热从研发走向大规模量产,中国大陆公司扩产能力更具优势,中信建投证券认为液冷散热领域一系列部件会有更多中国大陆供应商进入到全球供应体系。
2)铜链接:铜线在短距数据传输的成熟度更高且448G等新技术路线逐步面世,今年扩产最快的公司将充分享受从Blackwell到Rubin所带来的高速连接需求增长。
3)电源领域:高功率带动单W价值提升。PSU是服务器电源进行AC-DC转换的核心,随着单体功率密度的提升,单W价格也在提升,呈现量价齐升局面。新一代GB300等GPU方案中,BBU、CBU逐步成为标配,能够解决负载波动率大的供电稳定、电压稳定问题。目前5.5 KW电源已进入量产阶段,后续伴随2026 下半年800 V HVDC 数据中心电力基础设施及 1 MW IT 机架逐步落地,电源将持续升级。随着功率密度要求的提升,UPS目前正在由600kW级向MW级迈进,以应对越来越大的功率密度需求,未来AIDC有望全面切换到HVDC为代表的全直流供电方案,电压等级也提升至800V。巴拿马电源等集成化、模块化产品逐步成为大厂青睐的主流,更先进的固态变压器(SST)也已开始研发和测试。
4)PCB:亚马逊、META、谷歌等自研芯片设计能力弱于英伟达,因此对PCB等材料要求更高,价值量更有弹性。随着短距离数据传输要求不断提高,PCB持续升级,并带动产业链上游升级,覆铜板从M6/M7升级到M8/M9。伴随国内PCB公司在全球份额持续提升,并带动上游产业链国产化,从覆铜板出发,并带动上游高端树脂、玻纤布、铜箔等国内份额进一步提升。
DG视讯·(中国区)官方网站
5)光模块:除了GPU等算力硬件需求强劲,也催生了网络端更大带宽需求。优秀的网络性能可以提升计算效率,显著提升算力水平。相较于传统的云计算网络,AI训练组网由叶脊架构向胖树架构转变,交换机和光模块数量大幅提升,且随着通信数据量的增加,对光模块的速率要求也更高。800G光模块2023年开始放量,2024-2026年都保持高速增长;1.6T光模块2025年开始出货,2026年有望放量,整个光模块产业链迎来量价齐升的景气周期。从竞争格局看,国内光模块巨头经历了一轮又一轮的竞争,与北美的云厂商深度绑定,占据了全球光模块市场的主要份额。从未来技术趋势演进看,中信建投证券建议关注硅光与CPO(共封装光学)。
6)先进封装、HBM:为了解决先进制程成本快速提升和“内存墙”等问题,Chiplet设计+异构先进封装成为性能与成本平衡的最佳方案,台积电开发的CoWoS封装技术可以实现计算核心与HBM通过2.5D封装互连,因此英伟达A100、H100等AI芯片纷纷采用台积电CoWos封装,并分别配备40GB HBM2E、80GB的HBM3内存。全球晶圆代工龙头台积电打造全球2.5D/3D先进封装工艺标杆,未来几年封装市场增长主要受益于先进封装的扩产。先进封装市场的快速增长,有望成为国内晶圆代工厂商与封测厂商的新一轮成长驱动力。
7)国内算力链:一方面来自于美国BIS政策的持续收紧,中期维度看,国产芯片占比提升是必然趋势。考虑到国产芯片逐渐进入量产交付阶段,预期市场集中度将看到显著提升。另一方面随着国内算力消耗快速增长(典型如字节跳动,每三个月token消耗接近翻一倍,5月底为16.4万亿token),中信建投证券预计国内各家大型云厂商在日均token消耗达到30万亿token时会感受到算力紧张,在达到60万亿token时会开始出现一定算力缺口。中信建投证券认为国内增速斜率更陡峭,国产芯片今年将迎来发展大年。
2025年8月8日,GPT-5正式发布,包含GPT-5、GPT-5-Mini、GPT-5-Nano三个版本。GPT-5在数学、编程、视觉理解和健康领域表现突出,在数学AIME 2025(无工具)测试得分 94.6%、真实世界编码SWE-bench Verified得分 74.9%、多模态理解MMMU 得分 84.2%,健康HealthBench Hard 得分 46.2%,在各方面均位居前列。值得一提的是,GPT-5幻觉显著降低。在启用网页搜索时,GPT-5响应的事实错误率较GPT-4o降低约45%;深度思考模式下,错误率较OpenAI o3降低近80%。token定价方面,GPT-5为每百万输入token 1.25美元,每百万输出token 10美元,Mini和Nano则为GPT-5的1/5和1/25。随着近期Grok4、Genie3的陆续发布,大模型迭代提速,且准确率提升、成本降低,预计将加速AI应用的爆发,商业化也有望提速,帮助互联网大厂形成AI投入到商业变现的闭环,中信建投证券建议持续关注算力基础设施与AI应用等环节。
算力基础设施产业链中信建投证券认为北美链和国产连都值得关注。前期,受到供应链影响,国内AI算力基础设施投资节奏受到一定影响,但中信建投证券认为国内的需求依然旺盛,只是短期节奏受到一些干扰,但后续随着算力缺口的出现及扩大,国内的部署节奏有望恢复、甚至提速,建议择机布局IDC、液冷、光模块、交换机等板块。
在人工智能行业不断取得进展,以及相关产业链上市公司业绩预告表现亮眼的共同驱动下,通信指数上涨7.56%,在申万31个一级行业中排名第1。扎克伯格在表示,Meta将投资数千亿美元建设几座大型数据中心,用于支持其人工智能的发展,目标是实现通用人工智能,其中首个数据中心预计将于明年投入使用。7月18日,OpenAI宣布将在ChatGPT中推出一款通用型AI智能体,该公司表示该智能体可以帮助用户完成各种基于计算机的任务。此外,根据英伟达官网消息显示,英伟达将恢复向中国销售H20,并宣布推出一款全新、完全合规的面向中国的GPU,美国政府已明确表示将批准相关许可,预计不久后即可启动交付。
DG视讯·(中国区)官方网站
算力链公司发布业绩预告,实现快速增长,持续验证AI带动的算力行业景气度依然较高。当前位置,中信建投证券认为AI大模型的竞争与迭代仍在持续,意味着算力投资大概率依然维持较高强度,因此继续推荐算力板块:一是业绩持续高增长且估值仍处于历史较低水平的北美算力链核心标的;二是有望享受外溢需求、取得客户或份额突破的公司;三是上游紧缺的环节;四是随着GB300的批量出货,建议重点关注 1.6T光模块及CPO产业链;五是随着H20供应恢复、NV将向中国推出全新GPU等,建议关注国产算力链。
中信建投证券认为随着大模型的不断迭代,产业将向通用人工智能方向发展,AI应用仍值得期待,叠加宇树IPO,建议关注AI端侧的芯片、模组等产业链。此外,中信建投证券仍继续推荐电信运营商、军工通信等板块。
7月10日,xAI正式发布Grok 4,在GBQA(博士级问题集)、AMC 25(美国数学邀请赛)、Live Coding Benchmark(编程能力测试)、HMMT(哈佛-MIT数学竞赛)、USAMO(美国数学奥林匹克)等测试中均表现出色。马斯克表示,“现在在学术问题上,Grok 4比博士水平在每个学科都要强,没有例外。”定价方面,Grok 4基础版本为30美金一个月;Grok 4Heavy为300美金/月。后续产品路线月将发布专门编程模型;9月发布多模态智能体;10月发布视频生成模型。
Grok4 在性能上的强势提升与模型版本的快速迭代,这背后离不开强大的算力支撑,xAI在美国田纳西州孟菲斯建立了超级计算中心“Colossus”,2024年7月启动时配备了10万块英伟达H100 GPU,到2025年2月,GPU数量已翻倍至20万块。Grok4用于RL的计算资源几乎与预训练时使用的相同。
当前位置,中信建投证券认为AI大模型的竞争与迭代仍在持续,意味着算力投资大概率依然维持较高强度,因此继续推荐算力板块:一是业绩持续高增长且估值仍处于历史较低水平的北美算力链核心标的;二是有望享受外溢需求、取得客户或份额突破的公司;三是上游紧缺的环节;四是随着GB300的批量出货,建议重点关注 1.6T光模块及 CPO 产业链。
近期,算力板块表现出色。虽然经历了年初deepseek出圈,以及关税政策调整带来的两波较大的股价调整,但是随着海外CSP厂商capex的乐观指引,大模型及各种Agent带来tokens爆发式增长,OpenAI和Anthropic等公司的ARR大幅提升,市场对于未来AI算力投资的信心不断增强。
小米AI眼镜发布,重量40g,续航达8.6小时,价格为国补后1699元起,同时推出单色/彩色电致变色的选配版本。小米AI眼镜作为其随身AI接口,支持口令、多模态、扫码支付、语音控制和会议纪要等多种功能,是未来重要的端侧AI产品之一。建议继续重视智能眼镜供应链,包括整机、代工、软件与算法环节相关标的。
工信部披露运营商今年1-5月电信业务收入,同比增长1.4%,1-3月同比增速为0.7%,1-4月同比增速为1%,意味着4月和5月电信业务收入增速持续提升,分别达到2.0%和2.7%。中信建投证券持续推荐运营商。
英伟达召开2025年度股东大会,机器人融合人工智能打造新万亿级市场空间。英伟达于美国当地时间6月25日召开股东大会,CEO黄仁勋宣布将机器人列为仅次于AI计算的公司第二大增长引擎,目标通过融合AI与机器人技术开辟物理世界AI新万亿级市场。为实现这一愿景,英伟达构建了全栈式技术壁垒:硬件层推出新一代机器人芯片 Thor SoC,兼容工业机械臂与自动驾驶车辆;软件层依托 Isaac Robotics平台整合GR00T人形机器人基础模型,支持多模态感知与物理仿真。无论自动驾驶还是更广阔的机器人应用,其训练软件都将依托于英伟达强大的数据中心芯片,端侧应用设备则采用其他专业芯片支持运行。展望未来,英伟达将由芯片供应商向“AI基础设施”平台商转型,搭建AI工厂进而成为AI产业的核心基础架构。当前机器人和汽车业务占英伟达整体收入比例约1%,但人工智能结合机器人、自动驾驶将发展成为万亿美元级别的增量市场空间。
全球Token消耗量呈现爆发式增长,免费AI服务的规模化普及成为核心引擎。谷歌将AI能力融合到搜索场景中,AI Overviews功能推动其2025年4月推理Token消耗量飙升至480万亿/月,较2024年同期的9.7万亿激增50倍。这一增长直接受益于其覆盖45亿用户的免费服务生态;中国市场的C端应用同样爆发,字节跳动豆包大模型日均Token调用量从2024年12月的4万亿跃升至2025年5月的16.4万亿,其中超60%消耗量来自抖音、今日头条的AIGC营销内容生成。与此同时,企业级Agent任务复杂度升级大幅推高单次消耗量:企业端单Agent解决供应链、财务等场景对于tokens消耗量达到十万数量级,针对复杂场景或多Agent协同则可能突破百万级别,较传统问答tokens消耗增长约2个数量级。当前海内外头部厂商持续发力算力基础设施建设,以满足激增的推理算力需求。
ASIC市场空间预期持续上调,助力各大云厂商自研AI芯片以满足激增算力需求。全球ASIC市场空间预期持续上调,核心驱动力源于云计算巨头为满足激增的AI算力需求而加速自研芯片部署。Marvell 在投资者交流会中提及其为微软Azure定制的ASIC芯片单token成本较GPU方案显著降低,同时解决了英伟达芯片供给缺口。Marvell为AWS、微软、谷歌、Meta等提供底层算力支持,得益于上述云厂商强劲的算力需求,Marvell预计2028年数据中心资本开支将超过一万亿美元,同时进一步上调数据中心市场规模2028年预期至940亿美元,较2024年4月的预期750亿美元上调26%,其中上调定制计算芯片(XPU和XPU配套芯片)市场规模指引37%。Marvell的竞争对手博通同样发力ASIC市场,博通CEO在业绩说明会上表示,2025财年第二季度博通人工智能收入超44亿美元,预计人工智能半导体收入将在第三季度增长至51亿美元,实现连续十个季度的增长,明年XPU部署将显著增加,超出公司此前预期。
6月20日,在2025华为开发者大会(HDC 2025)上,华为云正式发布盘古大模型5.5及新一代昇腾AI云服务,实现AI基础设施与大模型技术的协同突破。本次升级覆盖自然语言处理(NLP)、多模态、预测、科学计算及计算机视觉(CV)五大领域,通过架构创新显著提升性能与能效,并深化工业、气象、能源等场景应用,加速产业智能化转型。
面对大模型训练与推理引发的算力需求指数级增长,传统计算架构已触及性能瓶颈。华为云此次发布的昇腾AI云服务,通过CloudMatrix384超节点架构实现基础层突破:该架构创新性地将384颗昇腾NPU与192颗鲲鹏CPU经由全对等互联的MatrixLink高速网络整合为高密度异构计算单元,形成具备超域并行能力的AI算力基座。关键性能指标实现代际跨越——单卡推理吞吐量提升至2300 Token/s,较传统架构相比提升近4倍,彻底释放大模型推理效能。
在架构设计上,超节点针对混合专家模型(MoE) 的稀疏计算特性进行深度优化:1)首创 一卡一专家并行范式 ,单节点即可承载384个专家模块的协同推理,显著降低通信开销;2)支持“算子级任务编排”,通过动态资源切片实现一卡多任务并发处理,使算力有效利用率(MFU)提升超50%,从根本上解决传统架构的算力闲置问题。
对于十万亿参数级别的训练场景,系统支持级联弹性扩展——通过432个超节点构建16万卡级算力集群,并创新性地实现训推一体化调度:采用 日推夜训动态资源池 策略,依据负载峰谷智能调配算力,在保障日间高并发推理需求的同时,利用闲置资源进行夜间模型训练。
此次,盘古 5.5 在 NLP 领域主要有三大模型组成,即盘古 Ultra MoE、盘古 Pro MoE、盘古 Embedding;以及快慢思考合一的高效推理策略、智能体产品DeepDiver。
Ultra MoE(7180亿参数) 作为准万亿级深度思考模型,基于昇腾全栈软硬件协同优化,首创 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 与 TinyInit小初始化技术 ,在CloudMatrix384集群上完成10+T token数据的稳定训练。其创新性 EP Group Loss负载均衡机制,保障256个专家模块高效协同,结合 “MLA多层级注意力”“MTP混合精度训练”策略,在知识推理、数学计算等任务中达到国际前沿水平。
Pro MoE(72B A16B) 专为昇腾硬件定制,通过分组混合专家算法(MoGE) 解决跨芯片负载不均衡问题。该模型针对300I Duo推理芯片优化架构拓扑,每次仅激活160亿参数(16B),在800I A2芯片实现 1529 Token/s 的极致吞吐效率,较同规模模型提升15%以上。SuperCLUE榜单验证其智能体任务能力比肩6710亿参数模型,成为商业落地最优解。
Embedding(7B) 轻量化模型突破规模限制,采用“渐进式SFT微调”与 “多维度强化学习 ”策略,模型在学科知识、编码、数学和对话能力方面均优于同期同规模模型,为边缘端部署提供高性价比解决方案。
同时,华为提出了自适应快慢思考合一的高效推理方案,构建难度感知的快慢思考数据并提出两阶段渐进训练策略,让盘古模型可以根据问题难易程度自适应地切换快慢思考。通过构建包含200万样本的难度感知数据集形成动态感知机制,基于问题复杂度分级标注,训练轻量级判别模块实现毫秒级难度判定,通过系统级训练框架实现模型内生决策能力,打破人工规则切换局限。
华为推出的DeepDiver智能体通过强化学习框架重构开放域信息获取路径,基于7B轻量模型实现千亿级复杂任务处理能力。该产品构建百万级合成交互数据集模拟真实搜索环境,采用渐进式奖励策略优化多跳推理能力,深度融合知识边界判定与结构化验证机制,突破传统引擎的关键信息遗漏瓶颈;技术实现上通过延时敏感型调度器协调128节点昇腾集群,结合主机-设备自适应权重迁移技术消除数据传输延迟,使单次任务可完成10跳深度推理链挖掘。目前已在投研智库、专利预警、医疗证据链分析等场景验证其颠覆性价值,推动AI智能体从工具执行向战略决策角色演进。
除了几个NPL大模型,华为盘古5.5还覆盖了几个垂直领域模型实现产业深度赋能:
盘古预测模型采用业界首创的triplet transformer统一预训练架构,将不同行业的数据,包括工艺参数的表格数据,设备运行日志的时间序列数据,产品检测的图片数据进行统一的三元组编码,并在同一框架内高效处理和预训练,极大地提升预测大模型的精度,并大幅提升跨行业、跨场景的泛化性。助力宝武钢铁高炉出铁温度合格率突破90%,云南铝业电解铝工艺年省电2600万度。
CV视觉模型以300亿MoE架构构建跨模态工业样本库,全面支持图像、红外、激光点云、光谱、雷达等多维度、泛视觉的感知、分析与决策。另外,盘古CV大模型通过跨维度生成模型,构建油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库,极大地提升了业务场景的可识别种类与精度。推动中石油亚毫米级缺陷识别效率提升40%。
科学计算模型在气象领域支撑深圳智霁实现区域集合预报,重庆天资·12h模型提升强降水预警精度,深圳能源风光发电预测优化清洁能源消纳效率。
盘古大模型持续深耕行业,已在30多个行业、500多个场景中落地,在政务、金融、制造、医疗、煤矿、钢铁、铁路、自动驾驶、气象等领域发挥巨大价值,实现产业智能化转型。
Deepseek发布深度推理能力模型。R1-Zero采用纯粹的强化学习训练,证明了大语言模型仅通过强化学习也可以有强大的推理能力,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩。DeepSeek R1训练和推理算力需求较低,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。
Deepseek发布深度推理能力模型,性能和成本方面表现出色。Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。R1-Zero采用纯粹的强化学习训练,模型效果逼近OpenAI o1模型,证明了大语言模型仅通过RL,无SFT,大模型也可以有强大的推理能力。但是R1-Zero也存在可读性差和语言混合的问题,在进一步的优化过程中,DeepSeek-V3-Base经历两次微调和两次强化学习得到R1模型,主要包括冷启动阶段、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习四个阶段,R1在推理任务上表现出色,特别是在AIME 2024、MATH-500和Codeforces等任务上,取得了与OpenAI-o1-1217相媲美甚至超越的成绩。
国产模型迈向深度推理,策略创新百花齐放。在Deepseek R1-Zero模型中,采用的强化学习策略是GRPO策略,取消价值网络,采用分组相对奖励,专门优化数学推理任务,减少计算资源消耗;KIMI 1.5采用Partial rollout的强化学习策略,同时采用模型合并、最短拒绝采样、DPO 和long2short RL策略实现短链推理;Qwen2.5扩大监督微调数据范围以及两阶段强化学习,增强模型处理能力。
DeepSeek R1通过较少算力实现高性能模型表现,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。DeepSeek R1在诸多维度上进行了大量优化,算法层面引入专家混合模型、多头隐式注意力、多token预测,框架层面实现FP8混合精度训练,硬件层面采用优化的流水线并行策略,同时高效配置专家分发与跨节点通信,实现最优效率配置。当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段,算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧,通过大量协同优化,DeepSeek R1在特定发展阶段通过较少算力实现高性能模型表现,算力行业的长期增长逻辑并未受到挑战。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。
北美四大云厂商一季度资本开支持续高增,总计773亿美元,同比增长62%。其中,2025Q1亚马逊的capex为250亿美元,同比增长68%,微软的capex为214亿美元,同比增长53%,谷歌的capex为172亿美元,同比增长43%,Meta的capex为137亿美元,同比增长104%。四家云厂商对于2025年资本开支的指引保持乐观,谷歌、亚马逊、微软表示年初资本开支指引保持不变,Meta将全年资本开支由上季度指引的600亿-650亿美元上调至640亿-720亿美元。市场此前在DeepSeek出圈后认为算力可能加速通缩,资本开支可能会趋缓,但从北美云厂商的最新指引来看,投资依然强劲,反映出北美算力行业景气度依旧很高。
国内CSP厂商季度间资本开支略有波动,但保持较高投资强度。2025Q1,阿里的资本开支为239.93亿元(Purchase of property and equipment),同比增长136%。相较于此前年报时的指引,2025Q1资本开支或低于投资者预期,预计与GPU芯片采购发货节奏有关;腾讯的资本开支为275亿元,同比增长91%,占营收比为15%,落在此前“low teens”指引区间。当前仍处于AI基础设施的投资期,尽管季度间资本开支或许有波动,但整体仍保持较高的投资强度,反映出国内算力投资需求也保持较高景气度。
随着大模型应用的普及和用户互动频率的增加,LLM的Token使用量正在以惊人的速度增长。在近期举行的2025年Google I/O开发者大会上,谷歌表示目前系统每月处理的token数量激增,从去年的9.7万亿增加到现在的480万亿,增长将近50倍。目前,Gemini的App上每月有4 亿多活跃用户。近期在字节跳动旗下火山引擎举办 Force 原动力大会上,公司宣布,截至2025年5月底,豆包大模型日均tokens使用量超过16.4万亿,较去年5月刚发布时增长137倍。Agent在解决复杂问题的过程中,会进行多轮对话或内部思考,每一轮的对话中都会产生大量的token。随着Agent在各种应用场景的快速普及,token数量还有望快速增长。
但市场对于当下AI发展的短期情况存在一定的担忧。自从2023年OpenAI的ChatGPT引爆了算力需求之后,CSP厂商的capex高速增长已有3年,但是AI相关的爆款应用迟迟没有出现,在无法商业闭环情况下,实际上也存在资本开支放缓可能。但是从长期发展的维度看,AI仍然会是整个科技行业最大的发展方向之一。总体来看,中信建投证券认为应先抱以乐观态度,但紧盯微观层面的订单变化,及时调整。因此,从投资的角度来看,中信建投证券认为应该重点锚定行业景气度变化和估值水平进行投资,海外产业链更看重景气度变化,估值水平在一定条件下可以提供安全边际,而国内算力产业链短期内则更需要重视业绩的兑现情况。
从2023年OpenAI的ChatGPT横空出世以来,人工智能带动的需求持续高速增长。CSP厂商的capex保持快速增长势头,GPU、ASIC、HBM、交换机、光模块、铜缆等需求旺盛。
北美四大云厂商一季度资本开支持续高增,总计773亿美元,同比增长62%。其中,2025Q1亚马逊的capex为250亿美元,同比增长68%,微软的capex为214亿美元,同比增长53%,谷歌的capex为172亿美元,同比增长43%,Meta的capex为137亿美元,同比增长104%。四家云厂商对于2025年资本开支的指引保持乐观,谷歌、亚马逊、微软表示年初资本开支指引保持不变,Meta将全年资本开支由上季度指引的600亿-650亿美元上调至640亿-720亿美元。高带宽、高质量以及高可靠性的互联网络能够确保算力集群处于高效率的运行状态。人工智能数据中心建设景气度高,给光模块产业链带来广阔的空间,国内主要光模块公司的业绩持续增长。
展望明年,预计800G光模块需求仍然强劲,1.6T光模块有望快速放量。在AI数据中心中,越来越多的客户倾向于选择更大带宽的网络硬件。带宽越大,单位bit传输的成本更低、功耗更低及尺寸更小。800G光模块的高增速已经能够反映出AI对于带宽迫切的需求,其在2022年底开始小批量,2023年和2024年的出货量都大幅增长。而AI对于带宽的需求是没有极限的,得益于网络较高的性价比,1.6T光模块有望加速应用。NVIDIA正在通过ConnectX-8 SuperNIC 升级网络平台架构,ConnectX-8是业内首款集成PCIe 6.0交换机和高速网络的网卡,专为现代 AI 基础架构设计,可提供更高的吞吐量,同时简化系统设计,并提高能效和成本效益。
CPO,Co-packaged Optics,即共封装光学技术,是将光芯片/器件与电芯片/器件合封在一起的封装技术。CPO的封装一般指两方面:一是光引擎(OE)中PIC和EIC的封装,二是光引擎和ASIC/XPU/GPU的系统级封装。共封装光学技术的优点包括降低功耗、降低成本和减小尺寸。降低功耗:信号传输的电路距离大大缩短,电信号损耗降低,简化后的SerDes去掉CDR、DFE、FFE和CTLE之后功耗降低,可节省30%+的功耗;降低成本:封装工艺成本更低,高集成度的光引擎成本更低,同时省去部分电学芯片成本,可降低25%+的成本;减小尺寸:借助硅光技术和CMOS工艺,共封装显著减小光电引擎各自独立封装方式的尺寸,同时实现更高密度的I/O集成。
Scale-up是指通过增加单个节点的资源来提升整个集群的算力。常见的单个节点是八卡服务器,随着大模型参数量大幅提升,英伟达先后推出了GH200 NVL32和GB200 NVL72等机架类产品,得益于高速的NVLink互连带宽,整个机架可类比为“One Giant GPU”,未来scale-up domain有望提升到千卡及万卡级别。2023年,英伟达宣布生成式AI引擎NVIDIA DGX GH200现已投入量产。GH200通过NVLink 4.0的900GB/s超大网络带宽能力来提升算力,服务器内部可能采用铜线方案,但服务器之间可能采用光纤连接。相比较传统的IB/Ethernet的网络,GH200采用的NVLink-Network网络部分的成本占比大幅增长,但是因为网络在数据中心中的成本占比较低,因此通过提升网络性能来提升算力性价比很高。
CPO技术是系统性工程,涉及到材料、器件、EDA、模块、设备等,对设计、封装和测试的要求非常高,因此目前产业中的现状主要是科技巨头在主导,产业链中的供应商配合。CPO/OIO中主要组成部分是CPO光引擎,采用的主要是硅光技术,因此两者的供应链也高度重合。参与到CPO/OIO研发的厂商主要是FAU、MPO、CW laser、光引擎、封装、流片厂、PCB厂商等,中信建投证券认为在各个细分领域具备较强优势的厂商,同样在CPO/OIO领域有望延续该领先优势。光引擎是核心产品,虽然目前主要是英伟达和博通等公司在主导,但是考虑到光引擎与光模块的设计、制造和测试环节高度相似,中信建投证券认为光模块公司仍然具备较大的优势。FAU、MPO和Fiber Shuffle等光纤连接器产品,在CPO/OIO产品上的价值量有望显著提升。CW DFB laser是重要的光源产品,在FR等波分复用的方案中,边缘波长的激光器难度较大,价值量也较高。
中信建投证券认为,算力板块目前的景气度依然较高,虽然市场对未来的预期存在分歧,但从Token的增长情况来看,中长期展望依然乐观就估值而言,中信建投证券认为既然市场对未来有分歧,那就对未来的盈利预测也会有分歧,所以未来的估值一定程度上就不具有很强的参考意义。对此,中信建投证券认为可以参考历史。复盘2019-2020年,5G、云计算叠加疫情带来的在线经济需求,也让光模块板块大涨,之后进入了约2年半的市场震荡寻底阶段。
华为发布CloudMatrix 384超节点,性能表现优异,通过集群、网络弥补单芯片差距
2025年4月,华为在云生态大会上推出CloudMatrix 384超节点,并宣布已在芜湖数据中心规模上线。据介绍,华为昇腾超节点凭借高速总线互联技术实现重大突破,把总线从服务器内部,扩展到整机柜、甚至跨机柜。在超节点范围内,用高速总线互联替代传统以太网。根据SemiAnalysis的对比分析,华为昇腾910C的单卡算力约为GB200的0.3X、HBM容量约为GB200的0.7X,但是在组成集群后,CloudMatrix 384算力约为NVL72的1.7X、HBM容量约为NVL72的3.6X。不足之处则是CloudMatrix 384能耗更高,系统总功耗是NVL72的3.9X,每FLOP功耗是NVL72的2.3X。正如任正非近期接受人民日报时所说,中国芯片产业可通过“叠加与集群”技术路径实现突围,在计算结果上与全球最先进水平相当。
英伟达NVLink与华为HCCS,两大厂商均希望打造自己的高速互联生态。自2014年开始,英伟达在其GPU中引入了NVLink互联技术。NVLink是由英伟达开发的一种高带宽、低延迟的点对点数据传输通道。它的主要用途是连接GPU,或者GPU与CPU之间的通信。经历了近十年的迭代,从NVLink1.0到5.0,GPU上的NVLink链路数从4条变为18条,随着serdes速率增长以及调制方式从NRZ升级为PAM4,单通道带宽从5GB/s升级至50GB/s,GPU之间通信的双向带宽达到了1800GB/s。华为HCCS对标英伟达的NVLink,能够给内核、设备、集群提供系统内存的一致访问,HCCS采用对等拓扑,单链路的最大带宽是56GB/s,昇腾910B中的HCCS采用点对点拓扑,单链路的最大带宽是56GB/s,聚合带宽392GB/S。高速的互联带宽对于模型的分布式训练至关重要,也成为英伟达与华为的核心竞争力之一。
英伟达和华为作为同时拥有GPU与交换芯片设计能力的公司,既懂网络也懂计算,打造一套属于自己的互联生态顺理成章。但对于其它GPU与网络设备厂商则并非如此,为了与NVlink竞争,UEC、UALink等组织相继成立,旨在打造一个开放的高性能计算网络生态。对于阿里、腾讯这样的互联网厂商,他们希望自己定义计算集群架构,而不是成套的购买设备厂商的训练集群,例如腾讯发布自己的星脉网络架构,阿里也着手自研交换机,因此开放的互联生态同样需要重视。
UALink1.0规范发布:支持连接1024个加速器,每通道200GT/s带宽。UALink(UltraAcceleratorLink)由AMD、AWS、AsteraLabs、思科、谷歌、HPE、英特尔、Meta和微软9家企业发起成立,旨在为AIPod和集群中加速器与交换机之间的纵向扩展通信定义一种高速、低延迟的互联规范,挑战英伟达NVLink等互联在该场景的领导地位。2025年4月,UALink1.0发布,支持每通道200GT/s的最大双向数据速率,信号传输速率为212.5GT/s,以适应前向纠错和编码开销。UALink可配置为x1、x2或x4,四通道链路在发送和接收方向上均可实现高达800GT/s的速度。从标准发布到实际应用,还需要协调众多厂商配合,因此开放的互联协议能够真正在组网中应用预计还需要一至两年。中信建投证券认为,对于网络与交换环节建议重点关注交换芯片、网卡等公司。
GB200服务器进入规模化量产阶段,Blackwell将接替Hopper成为出货主力。在GTC 2024大会上,英伟达正式发布了新一代Blackwell架构AI芯片,并推出了基于该架构的新型机架式AI服务器参考设计GB200。由于散热挑战与液冷系统泄漏等问题,GB200系统在2024年量产推进并不顺利,整体进度滞后于预期。随着英伟达与供应链合作逐步优化设计,并解决关键技术难题,24年底Blackwell平台开始进入爬坡阶段,开启对Hopper平台的替代。英伟达FY26Q1(2025年2月-4月)数据中心业务中近70%的收入已由Blackwell平台贡献。鸿海、广达等核心ODM供应商也普遍预计,GB200将在2025Q2加速放量,微软、Meta等多家云服务厂商也陆续部署新一代系统。
升级方案GB300有望于2025年下半年开启量产。英伟达在GTC 2025大会上披露,预计GB300将于2025年下半年量产上市。硬件方面,GB300采用12-Hi堆叠的HBM3e内存结构,每颗GPU配备288 GB显存,较GB200的192 GB提升50%。系统I/O也全面升级,整机网络带宽提升至1.6 Tbps,以满足更高并发推理的通信需求。在性能表现上,GB300 NVL72在FP4精度下的推理算力相较GB200 NVL72提升约1.5倍。为确保量产进度,英伟达此次在设计上回归稳定的Bianca板卡方案,并优化了液冷系统与供电模块。GB300将成为继GB200之后,又一轮AI服务器放量的关键驱动。
自研ASIC芯片不仅能够降低功耗,还能帮助CSP掌握AI基础设施的成本与供应链,避免过度依赖英伟达,因此自研ASIC正成为CSP的竞争关键。谷歌曾独占ASIC AI芯片市场,目前AWS、Meta、微软等企业也开始积极投入ASIC AI芯片开发。AWS的ASIC AI芯片Trainium 2在2024Q4开始量产,搭载该芯片的服务器则在2025Q1开始规模化出货,纬颖作为AWS ASIC服务器的核心供应商,营收大幅受益。AWS下一代Trainium 3晶片则预计在2025年底之前量产。
制程迭代是芯片算力提升的关键因素,AI算力需求的爆发催生了对先进制程的强需求。AI大模型发展对芯片算力提出更高要求,未来更成熟的AGI模型所需算力是现在GPT-4所需算力的1万倍。而解决高算力需求的一种方案是采用更为先进制程的芯片,因为芯片制程越先进,功耗越低、计算速度越快。如2nm芯片功耗约为16nm芯片的10%,而性能约为16nm芯片的2倍以上。台积电估计其即将推出的N2P节点的功耗可能比N3E节点低30-40%。
服务器需求将超过智能手机成为先进制程最主要的驱动力。历史上,智能手机的迭代更新推动了芯片制程的不断演进,但随着AI应用的计算需求上升,服务器成为主要的算力中心,且对高算力的追求使得其对先进制程呈现出越来越高的需求,AI芯片功耗较高,且需要更小的尺寸,因此AI芯片对先进制程的迫切需求将推动服务器需求成为先进制程最大的驱动力。Sumco估计,在AI服务器出货量强劲增长的推动下,服务器对先进制程晶圆的需求量最快将在2024年超过智能手机。
2025年是2nm量产交付元年,台积电已获得多家客户订单。台积电、三星、Intel均有望在2025年量产2nm制程,但目前Intel和三星主要用于生产自有产品,并未获得第三方客户的量产订单。Intel的18A将生产Panther Lake (PC CPU)和Clearwater Forest (服务器CPU),三星的SF2可能将获得自研处理器Exynos 2600的订单。台积电的2nm已获得多家客户订单,包括AMD的Venice(服务器CPU),苹果的A20/A20 Pro和M6系列,高通第三代8 Elite。此外,AWS、谷歌、微软未来的ASIC AI芯片在2nm节点上都大概率选择台积电。
先进制程面临物理约束瓶颈,先进封装成为提高芯片性能的重要解决方案。AI大发展使得算力需求爆发式增长,然而,随着半导体工艺尺寸进一步缩小,集成电路制造面临的挑战日益增大,摩尔定律日趋放缓,单位晶体管的成本不降反升,应用先进制程的芯片研发费用也大幅增长。先进封装通过异构集成,将多个芯粒(Chiplets)高密度连接在一起,整体性能提升不再依赖单一芯片支持,且大幅提升良率,降低成本,成为提供系统级性能提升的新路径。
CoWoS为HPC和AI计算领域广泛使用的先进封装技术。CoWoS是台积电推出的 2.5D封装技术,本质上是将多个芯片(如逻辑芯片+HBM)放置在一块硅中介层(interposer)上,再封装在基板上,2012年首先应用于Xilinx的FPGA上。此后,英伟达、AMD、谷歌等厂商的AI芯片均采用了CoWoS,例如A100、H100。如今CoWoS已成为HPC和AI计算领域广泛应用的2.5D封装技术,绝大多数使用HBM的高性能芯片,包括大部分创企的AI训练芯片都应用CoWoS技术。
AI持续高景气带动CoWoS需求不断提升。2023年一季度以来,AI服务器的需求不断增长,使台积电CoWoS封装产能紧缺。台积电一方面将制程分段委外,另一方面大幅扩产CoWoS产能。
HBM 3D堆叠提升内存性能,AI芯片广泛采用。随着数据的爆炸式增长,内存墙对于计算速度的影响愈发显现。为了减小内存墙的影响,提升内存带宽一直是存储芯片聚焦的关键问题。如同闪存从2D NAND向3D NAND发展一样,DRAM也正在从2D向3D技术发展,HBM为主要代表产品。与传统DRAM不同,HBM是3D结构,它使用TSV技术将数个DRAM裸片堆叠起来,形成立方体结构,与传统内存相比,HBM的存储密度更大、带宽更高,基本成为数据中心AI芯片的标配。
预计2028年全球先进封装市场规模增至786亿美元,2022-2028年CAGR达到10.0%。根据Yole数据,2022年全球封装市场中,先进封装占比已达到47%。预计到2028年,先进封装市场占比将增至58%,规模约为786亿美元,2022年-2028年CAGR约为10.0%,明显高于传统封装市场的2.1%和市场整体的6.2%。
晶圆代工龙头台积电打造先进封装工艺标杆,传统封测厂商亦纷纷加快转型步伐。台积电在先进封装上已取得了可观的收入体量,技术布局也进入关键节点,未来投入规模将持续加码。在OSAT厂商中,日月光VIPack先进封装平台包含六大核心技术,安靠推出FCMCM(倒装多晶片模组)、2.5D(TSV)等五大先进封装解决方案。国内长电先进聚焦bumping,Fan-out CSP晶圆级等先进封装,通富微电在2.5D/3D先进封装保持国内领先,深科技专注存储封测领域,并聚焦倒装工艺(Flip-chip)、POPt堆叠封装技术的研发。
全球HBM(高带宽存储器)技术呈现“海外领跑、国内加速追赶”的双轨格局。海外市场由SK海力士、三星、美光三大巨头垄断95%以上份额:SK海力士凭借HBM3/3E量产优势稳居首位(市占率52.5%),其12层堆叠HBM4测试良率已突破70%,计划2025年量产;三星正加速优化HBM3E良率并推进HBM4研发,2024年通过AMD MI300系列验证后逐步放量;美光则聚焦HBM3e量产,但产能扩张略有滞后。国内HBM产业受地缘政策催化进入提速阶段。
从HBM的生产工艺来看,DRAM颗粒为定制的DRAM颗粒,工艺难点在于封测。TSV、大规模回流模塑底部填充(MR-MUF)、自对准、混合键合等工艺很大程度上影响HBM的性能和良率。
(1)TSV:不采用传统的布线方法来连接芯片与芯片,而是通过在芯片上钻孔并填充金属等导电材料以容纳电极来垂直连接芯片。制作带有TSV的晶圆后,通过封装在其顶部和底部形成微凸块(Micro Bumping),然后连接这些凸块。由于TSV允许凸块垂直连接,因此可以实现多芯片堆叠。最初,使用TSV接合的堆栈有4层,后来增加到8层。最近,一项技术使得堆叠12层成为可能,SK海力士于2023年4月开发了其12层HBM3。虽然TSV倒装芯片接合方法通常使用基于热压的非导电薄膜(TC-NCF),但SK海力士使用MR-MUF工艺,可以减少堆叠压力并实现自对准。这些特性使SK海力士能够开发出世界上第一个12层HBM3。
(2)MR-MUF:将半导体芯片堆叠起来,并将液体保护材料注入芯片之间的空间,然后硬化以保护芯片和周围电路的工艺。与在每个芯片堆叠后应用薄膜型材料相比,MR-MUF是一种更高效的工艺,并提供有效的散热。目前SK海力士主要使用MR-MUF工艺生产HBM2e/3/3e,使得其领先于三星电子和美光,后者主要采用TC-NCF工艺。MR-MUF工艺需要使用液态环氧树脂(EMC),目前全球仅日本namics独供。除EMC外,HBM封装还需要底部填充胶用于FC工艺,采用PSPI作为硅中介层中RDL的再钝化层,还需要IC载板、DAF、Solder ball等材料。
(3)自对准:在 MR-MUF工艺期间通过大规模回流将芯片重新定位到正确的位置。在此过程中,热量被施加到芯片上,导致相关凸块在正确的位置熔化并硬化。
(4)混合键合:C2W混合键合具有多种优势,①允许无焊料键合,减少键合层的厚度、缩短电气路径并降低电阻。因此,小芯片可以高速运行,就像单个芯片一样。②通过直接将铜与铜接合,可以显着减小凸块上的间距。目前,使用焊料时很难实现10 um或更小的凸块间距。然而,铜对铜直接键合可以将间距减小到小于1um,从而提高芯片设计的灵活性。③先进的散热功能。④上述的薄粘合层和细间距影响了封装的形状因数,可以大大减小封装尺寸。目前混合键合主要用于单层键合或两个芯片面对面堆叠,SK海力士2022年用混合键合完成了8层HBM2e的堆叠,正在开发用于更高密度、高堆叠HBM的混合键合。
需求紧俏,HBM持续挤压DRAM产能。从需求端看,云计算厂商将更多资本开支投入AI基础设施,2024年北美CSP的资本开支增速在55%,主要来自AI推动,传统服务器需求基本持平,25Q1同比增长64%,预计2025年CSP资本开支维持大幅增长。算力需求的快速增长,算力卡的数量和配置快速升级,最终带来的是算力芯片和HBM需求的快速增长。结合海外存储厂商和咨询机构的预测, 2024年HBM市场规模达到160亿美金,同比增长300%,预计2025年达到320亿美金,同比增长100%。从供给端看,HBM供应仍然紧缺,在传统DRAM库存波动的情况下,HBM由于AI服务器的强劲需求,挤占DRAM产能的现象还在持续。
HBM快速迭代,HBM4即将进入量产。结构上,2025年HBM3e将占据主导,根据SK海力士,2024年其HBM3e收入将占HBM收入一半以上,2025年12层HBM3e供给量将超过8层产品,12层HBM4计划于25H2发货。(1)HBM3e:三大原厂相继推出12Hi产品,这些12Hi的HBM预计用在英伟达的B300A(B200A Ultra)和B300上。(2)HBM4:三星、海力士计划24Q4开始HBM4的流片,预计2026年用在英伟达下一代的Rubin芯片上。
1.2.4 模型推理时代到来,ASIC需求爆发,看好ASIC服务器PCB厂商
推理时代即将到来,推理将成为AI算力需求的新动力。英伟达首席执行官黄仁勋在2025年GTC的主题演讲中提到,随着AI行业在模型训练上的需求放缓,叠加DeepSeek在模型推理上所作的创新,AI推理时代即将到来。相较于传统的生成式AI主要以语言大模型与聊天机器人的形式呈现、聚焦生成文本和图像内容等,AI Agent能理解任务、进行复杂推理、制定计划并自主执行多步骤操作,由于AI Agent解决复杂问题、分解任务每一步的逻辑思考过程都需要用到模型推理,因此推理将成为AI新阶段的核心动力。
低成本是AI推理爆发的必要条件,北美CSP厂商均加速研发ASIC的步伐。大模型推理时代相较于移动互联网时代,底层逻辑发生了巨大变化。推理系统的成本几乎和客户使用量成线性关系,因此边际成本很高,且成本绝大部分是推理的算力消耗。因此,在大模型时代,能将推理成本降到极致的厂商有望获得最终的胜利。目前北美四大CSP厂商,除了继续采用英伟达GPU做模型训练之外,均在加速开发自家的ASIC产品,一方面因英伟达的GPU价格昂贵,硬件投入成本过高,另一方面,自研ASIC可针对特定需求进行优化,也能针对特定的应用进行设计,因此对于能耗或电力管理的控制将更加精准,此外,从供应链安全角度,也可以避免算力资源都来自英伟达、AMD等GPU厂商的风险。在同等预算下,AWS的Trainium 2可以比英伟达的H100 GPU更快速完成推理任务,且性价比提高了30%~40%。2025年底计划推出的Trainium3,其计算性能更是提高了2倍,能效有望提高40%。谷歌的TPU v5芯片在Llama-3推理场景中,单位算力成本较H100降低了70%。根据IDC数据,微软Azure自研ASIC后,硬件采购成本占比从75%降至58%,摆脱长期被动的议价困境。
在Google Cloud Next 25大会上,谷歌又推出了第七代张量处理单元(TPU v7)Ironwood,它是谷歌迄今为止性能最高、可扩展性最强的定制ASIC芯片,也是首款专为推理而设计的加速器。Ironwood的每瓦性能是谷歌去年发布的第六代TPU Trillium的两倍,HBM容量及双向带宽均大幅提升。谷歌ASIC服务器计算板上有四个Ironwood TPU,这个与之前TPU v5计算板架构一样。
博通和Marvell均看好ASIC市场需求。博通和Marvell是ASIC定制领域的主要玩家,二者在AI定制芯片中占据了超70%的市场份额。博通定制的ASIC芯片广泛应用于数据中心、云计算、高性能计算(HPC)、5G无线基础设施等领域,根据博通最新财报,2025Q1公司AI芯片收入占比50%,同比增长77%,其中ASIC相关收入占比60%。博通认为XPU的需求会持续上涨,公司预计2025年下半年ASIC收入占比会持续上升,主要是因为推理模型需求增长使得AI芯片业务增速加快。Marvell的ASIC业务也成为公司强劲增长的核心动力之一。2024年12月初,Marvell与AWS达成了一项为期五年的战略合作协议,包括帮助亚马逊设计自有AI芯片。伴随AWS芯片的量产,Marvell在2025Q1实现营收18.95亿美元,同比增长63%,创历史新高。Marvell也预测,随着AI计算需求的增长,公司ASIC占比有望提升至25%,预计2028年数据中心ASIC市场规模将提升至429亿美元。
中国ASIC服务器市场增速超40%。中国ASIC服务器市场未来在中国市场,由于部分高端GPU产品受供应的限制,出现了算力缺口,另外中国头部的互联网企业为了降低成本以及更好地适配自身业务场景,也增大了自研ASIC芯片服务器的部署数量。IDC预测,2024年中国加速服务器市场规模将达到190亿美元,同比2023年增长87%。其中GPU服务器依然是主导地位,占据74%的市场份额。到2028年,中国加速计算服务器市场规模将超过550亿美元,其中ASIC加速服务器市场占比将接近40%。
随云厂商积极自研ASIC芯片,ASIC正成为AI服务器市场中与GPU并行的重要架构,进一步带动高阶PCB的需求。金像电为全球服务器PCB第一大厂,也是ASIC服务器放量时PCB企业中的最大受益者。金像电的产品已经切入北美四大CSP,涵盖UBB、OAM(加速器模组)所需要的HDI、厚铜板等。根据金像电25Q1法说会资料,公司25Q1单季度实现收入29.52亿元,创历史新高,其中服务器收入占比持续提升,到72%。在传统服务器市场温和复苏背景下,金像电业绩高增核心来自于云厂商ASIC服务器PCB订单,根据公司交流,2024年AI产品占比已达20%,未来将持续提升。
根据Semianalysis数据,亚马逊第二代推理芯片Trainium2的计算托盘中使用了2个Trainium2的芯片,即用到2个OAM,下面是一块UBB板。UBB为采用了M8规格覆铜板材料的28层高多层板,OAM为M6/M7的三阶HDI,往下一代Trainium3迭代的过程中,UBB中层数、OAM层数及阶数均会进一步提升。
展望2025年,除AWS外,谷歌、meta的新产品中,ASIC服务器UBB层数均将向30层板以上推进,制作难度加剧,也将进一步推动ASP的提升,ASIC服务器PCB将迎来量价齐升阶段,同时也将拉动上游高规格(M8等)覆铜板的需求。
三大增量助力推理算力需求加速。AI算力消耗开始从训练走向推理,并且带来显著的算力增量,探究背后增量需求主要来自三方面:一是各家互联网大厂纷纷加速AI与原有业务结合,如谷歌搜索在今年5月21日正式迎来 AI 模式,并逐步在美国市场推出,考虑到谷歌搜索全球范围内年搜索量为5万亿次+,假设单次回答平均为2000 token,则该功能将带来日均27万亿token消耗(超过其Gemini模型目前日均16万亿token消耗),类似案例如抖音搜索、微博AI智搜,搜索功能开始从普通服务器迁移到AI服务器并重塑所有搜索体验,类似的视频编辑、剪辑功能也被AI重塑;二是Agent和深度思考推理的结合,通过两者结合,Agent执行任务准确率大幅提高,Agent执行一次任务平均消耗token达到十万亿的量级,大幅超过AI搜索单次问答token消耗,并且能延伸到更多开放式场景,如智谱发布会演示的“用你最擅长的方式去赚100块钱”,同时多Agent协作的群体智能也已开始逐步商用化,过去复杂、多步骤的任务可通过Agent实现,Agent的普及将带来推理算力需求的大幅增长;三是多模态,随着多模态生成的图片及视频质量今年均显著提升,今年AI营销内容占比提升十分明显,根据《2025中国广告主营销趋势调查报告》显示“超过50%的广告主,已经在生成创意内容时使用AIGC,并且AI营销内容占比超过10%”,而一分钟视频的生成token消耗基本在10万亿token量级,目前多模态模型开始步入快速商业化阶段,如快手可灵4、5月连续两月付费金额超过1亿,多模态的加速渗透带来明显的算力需求提升。
展望2025年下半年及26年,中信建投证券认为算力领域投资分为海外景气度投资以及国内自主可控两大类:
海外景气度投资:1)重视推理占比的提升:参照台积电Cowos扩产节奏,ASIC芯片在26年的边际变化最为明显,同时英伟达依然有较高增速;2)围绕机柜增量变化及新技术投资,25年下半年核心是英伟达NVL72机柜上量,其中液冷散热、铜连接、电源变化最大,散热方面将是AI算力领域未来几年核心技术升级方向之一,目前供应商以台系厂为主,考虑到中国大陆的公司扩产能力更具优势,中信建投证券认为液冷散热领域一系列部件会有更多中国大陆供应商进入到全球供应体系。铜链接方面,铜线在短距数据传输的成熟度更高且448G等新技术路线逐步面世,今年扩产最快的公司将充分享受从Blackwell到Rubin所带来的高速连接需求增长。电源领域重视氮化镓等机会;3)围绕预期差及景气度投资,重视PCB,英伟达、亚马逊、META、谷歌等相关需求景气度高,并重视上游国产化比例提升,并且部分领域库存开始下降、价格具备一定弹性。
国内自主可控:一方面来自于美国BIS政策的持续收紧,另一方面随着国内算力消耗快速增长(典型如字节跳动,每三个月token消耗接近翻一倍,5月底为16.4万亿token),中信建投证券预计国内各家大型云厂商在日均token消耗达到30万亿token时会感受到算力紧张,在达到60万亿token时会开始出现一定算力缺口。中信建投证券认为国内增速斜率更陡峭,国产芯片今年将迎来发展大年。
自从23年ChatGPT出现以来,基于AI业务token消耗的快速提升,海外大厂开启CAPEX高额投入周期,持续在模型训练和推理端加大算力投入,模型性能得到快速迭代。与此同时,伴随24年12月以来DeepSeek V3和R1的逐渐发布,其首次实现了国产模型在推理任务上与 OpenAI-o1的基本相当,并引发了访问流量的快速扩大(DeepSeek 应用(APP)于 2025年1月11日发布,1月31日DAU达 2215 万,达 ChatGPT 日活用户的 41.6%,超过豆包的日活用户 1695 万),伴随Deepseek带来的降本范式(FP8 混合精度训练框架)持续演化,模型输入/输出成本得到快速下降,AI应用大范围推广成为可能。云计算产业作为模型训练/推理需求快速扩大下的直接受益方,进入了持续高景气周期。
站在当前时点,云厂云业务营收增速与营业利润率(或EBITA利润率)是CAPEX投入的前瞻指引。2023年以来,伴随着Transform架构下Scaling law的持续生效,各家大厂均对模型训练做出大量投入。考虑到此时海外厂商并不以投入产出比来做出CAPEX投入的衡量,且模型能力边界本身尚不清晰,因此25年以前,更多以CAPEX本身作为实际算力需求的前瞻指引。但25年以来伴随LLM模型能力边界逐步逼近上限,模型训练需求相对有所下滑,推理开始成为核心需求来源,CAPEX投入产出比逐步进入可测算阶段。在此基础上,云业务增速与营业利润率趋势成为算力需求的直观体现,也是后续CAPEX投入力度的核心决定因素。
以阿里云为例,24Q2是阿里云算力投入决策的核心拐点。2022年以来,由于互联网大厂业务的快速收缩,阿里云营收增速快速下滑,同时伴随着云资源池利用率的降低,营业利润率随之下降。23年以来,通过提升公有云业务占比以提升利润率与发展AI以实现营收提速成为阿里云的核心战略。伴随24Q2阿里云营收增速首次由负转正(AI业务贡献较大增量),GPU实例业务的需求和盈利性的首次得到论证,因此从24Q3开始,阿里云CAPEX投入力度快速加大,并在24Q4的业绩交流会上宣布三年3800亿资本开支计划。
当前国内云厂仍处于资本开支投入第一阶段,短期投入力度具备保障。参考海外厂商,云业务的发展往往有三个阶段,而目前我国云计算业务还在第一阶段。以微软为例,23Q1开始其率先进行大额CAPEX投入,以配合OpenAI模型的快速发展,受益于更高利润率的AI业务快速发展,23Q1-23Q3公司Azure营业利润率进入快速上行阶段;随后,从23Q4开始高额资本开支开始逐渐对折旧端产生压力,相对应的微软也做了员工数量削减,希望通过费用的控制来维持营业利润率的持续上行;后续,伴随折旧压力放大,资本开支进入平稳周期。
目前阿里云的营收分为对内关联交易和对外商务,对内AI部分主要支持夸克,钉钉,高德等调用通义/DeepSeek模型,对外创收中的AI业务主要包含GPU租赁、MaaS服务、模型服务(百炼与PAI平台)三类。由于近年来模型侧价值量逐渐被云端内化(MaaS的价值量被带入到了IaaS中),导致GPU租赁成为了公有云业务中毛利率更高的部分,大幅资本开支本质是为了让高毛利率GPU租赁业务占比快速扩大,以此拉动AI业务规模快速增长。在此思路下,从24Q2开始,AI业务成为支撑公有云增长核心动力,24Q2一半以上营收增速来自AI贡献,且在后续持续保持100%以上同比增长。
相比传统CPU实例,中期看GPU实例将具备更高投入产出效率。一方面,传统公有云商业模式下,云厂主要提供计算、网络、存储等同质化服务,难以在客户体验上产生本质性不同,更多是依托规模效应。而GPU租赁时代,客户需求主要聚焦于模型训练与推理,智算平台的运维能力和自动化、容错率是竞争优势的核心区分,“有效训练时长”是各家智算业务中的一项关键性能指标,如阿里云今年四月就强调,其“万卡级超大规模训练中,一个月内灵骏GPU集群有效训练时长占比能超过93%”,相对而言,大厂云平台具有更强稳定性;另一方面,在提供GPU实例租赁的服务同时,大厂同时也会提供模型训练/推理加速服务,通过算力与通信的调度实现训练效率数倍式提升。双重优势下,大厂GPU实例租赁具备一定溢价能力,相对传统CPU实例更具备投入产出比。
长期看,通过超卖率的提升,GPU实例将持续保持较高的盈利能力。过去十年以来,公有云价格进行了数次降低,其降价能力一方面来源于规模效应对运营成本的分摊(以及关键技术自有化),但另一方面也来源于CPU超卖能力的不断增强,使单CPU实例实际收费能力大幅上升,因此得以在不断降价的背景下实现利润率稳定;目前阿里云GPU租赁业务仍以模型微调需求为主,而TensorFlow、Pytorch等智能化应用框架开发的应用往往会独占一张GPU整卡,无法做超额出售,但伴随后续推理需求大幅提升,则GPU虚拟化是必然趋势。GPU实例超卖率的提升将进一步拉高GPU租赁业务的EBITA利润率,并为后续降价获客提供空间。
高算力需求推动算力中心单机功率密度提升,液冷散热走向必选。传统风冷系统通过让冷源更靠近热源,或者密封冷通道/热通道的方案,来适应更高的热密度散热需求。随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。此外,液冷散热相较于风冷更加绿色低碳,PUE(Power Usage Effectiveness,数据中心总能耗/IT设备实际能耗)是算力中心最常见的评价性能指标,也是行业评价算力中心绿色性能的主要衡量指标,PUE值越接近于1,代表算力中心的绿色化程度越高,液冷散热往往更接近于1。从分类来看,液冷技术主要分为冷板式、浸没式和喷淋式液冷技术等技术类型,其中冷板式液冷技术作为成熟度最高、应用最广泛的液冷散热方案。
以英伟达GPU芯片为例,单芯片及机架热功耗增长迅速。英伟达的B系列芯片和NVL72机柜热设计功率TDP(Thermal Design Power)大幅提升:H100的TDP最高为700W,B200的TDP最高为1200W,增长约7成;H100每个机架的TDP约为40kW,B系列机架的TDP约为120kW,功率增约200%-500%。H100机柜主要采用风冷散热,但是由于受限于风冷散热效率较低和空间利用率低的缺点,GB200 NVL72机柜采用水冷散热。水冷散热能够提高芯片散热效率,大幅提高计算密度从而降低芯片互联之间的延时,进一步降低模型训练成本。
风冷散热主要元件:热界面材料TIM(直接覆盖在GPU之上)、集成散热器IHS(与TIM相连)、多维两相均温元件3DVC(由热管和散热片组成,安置在IHS之上)、风扇(安置在服务器最前面或者最后)。3DVC的得名来自于1维的热管、2维的散热片、3维的热管与散热片腔体互通;VC(蒸汽室)来自于液体蒸发冷凝的过程。风冷散热原理方面,芯片的热量通过TIM传导至IHS之上,热量进入3DVC中将3DVC中的液体蒸发为蒸汽,蒸汽通过热管向上传导至上方多层散热片中。由服务器前端和后端的风扇和数据中心的空调将腔体内的蒸汽冷凝为液体,过程循环往复。因此,风冷散热有两部分组成:每个芯片上方的多维两相均温元件与服务整个服务器散热的风扇和数据中心的空调。
液冷散热在散热能力及空间利用率方面优势显著。水的热容量为空气的4000倍,热导率是空气的25倍。在相同温度变化中,水能存储更多的热量且热量的传递速度远超空气。GB200的水冷计算托盘设计利用冷板与冷却液的高效热交换机制,将芯片产生的热量均匀传递至冷板表面。冷却液以高流速经过冷板后能够迅速带走热量并均匀散热。空间利用率方面。风冷的HGX H100计算平台高度大概为6U(1U=4.445cm)。而采用风冷设计的HGX B200则需要10U高度的风冷设备达到散热需求。相比较而言,使用DLC的GB200计算托盘的高度仅为1U。同样部署8块GPU芯片,HGX H100高度为6U,HGX B200需要10U,而GB200 NVL72只需要2个计算托盘总计高度为2U。空间利用率大幅提升。
冷板式液冷可带走70%-75%的热量。冷板式液冷通过冷板将芯片等发热元器件的热量间接传递给封闭在循环管路中的冷却液体,冷却液带走热量,并将其传递到一次侧回路,通过冷却系统进行冷却,最后将热量排出系统。冷板式液冷系统可以分为一次侧(室外)循环和二次侧循环(室内)两部分。其中,二次侧循环主要通过冷却液温度的升降实现热量转移,而一次侧的热量转移主要是通过水温的升降实现。成本方面,一次侧占到液冷成本的30%左右,二次侧占70%左右。从冷却效果来看,冷板一般使用在平坦表面时换热效果最佳,例如CPU、GPU和存储器模块等,不适用于电源和IC电容器等其它组件,综合来看,冷板液冷可带走机架中设备产生的70-75%的热量,因此需要采用混合冷却方法。
冷板是服务器液冷核心部件。冷板的材质可以选用铜、铝、不锈钢和钛合金等不同材质。铜导热系数高,工艺性好,对于普通大气环境、海洋性气候条件及水等液体介质是适用的。铝冷板目前在数据中心行业的使用还比较少,核心原因系铝材质的换热能力低于铜材质,铝的导热率是铜的60%左右,相同换热设计下,铝冷板的热阻更高;此外,铝材质活性更高,更容易与冷却工质发生反应,严重的可能造成冷却工质杂质增加,冷板腐蚀、泄露,甚至最终影响系统使用。优点方面,冷板材质从铜到铝能帮助整个全液冷系统冷板重量节省约44%,而且铝冷板加工工艺灵活,大规模量产后一定程度上能比铜冷板成本节省20%以上。其他材质:石墨烯涂层冷板,即在铝板表面喷涂石墨烯(成本增加20%),但可减少冷板厚度30%,整体系统体积缩小。
浸没式液冷:通过将发热的电子元器件(如 CPU、GPU、内存及硬盘等)全部或部分直接浸没于装有非导电惰性流体介质的机箱中的液冷散热技术。它包含两个循环:一次侧循环利用室外冷却设备(如冷却塔或冷水机组)与热交换单元(如CDU等)进行热交换,排出冷却液热量;二次侧循环中,CDU与液冷箱内的IT设备热交换,传递热量给冷却液。根据冷却液在循环散热过程中是否发生相变,分为单相浸没式液冷和双相浸没式液冷。①单相浸没式:作为传热介质的二次侧冷却液在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依靠物质的显热变化传递热量。②两相浸没式:作为传热介质的二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。
喷淋式液冷:直接接触式液冷,面向芯片级器件精准喷淋,通过重力或系统压力直接将冷却液喷洒至发热器件或与之连接的导热元件上的液冷形式。散热效果:喷淋式液冷也可完全去除散热风扇(实现100%液体冷却),换热能力强,相较于浸没式液冷节省冷却液,数据中心PUE可降至1.1左右。喷淋式液冷需要对机柜和服务器机箱进行改造,运维难度较大,节能效果差于浸没式液冷。
综合考量初始投资成本、可维护性、PUE效果以及产业成熟度等因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案,冷板式液冷可以实现从传统风冷模式的平滑过渡,在数据中心领域应用更多。
英伟达从Hopper到Blackwell硬件的第二大转变是采用了直接到芯片的液冷技术(DLC),以提高机架级别的计算密度。据估算,GB200 NVL36 L2A机柜热管理价值量中,服务器层面(冷板、风扇)价值量占比约26%,机架层面(Compute Tray、NV Switch、CDU、Mainfold)价值量占比约65%。GB200 NVL72 L2L服务器热管理价值中,服务器层面价值量占比约38%,机架层面价值量占比约47%。关注GB300服务器新变化:GB200服务器设计中,冷板采用“一进一出”配置,每个Compute Tray配备6对快接头,NVL72系统整体快接头数达126对(Switch Tray 2对),总价值量约10080美元;而GB300可能摒弃“大冷板”,为每个GPU配备单独的冷板,单个Compute Tray数量从6对增至14对,但新型快接头价值量有所下降,经测算,NVL72系统中快接头总价值量约14040美元。
中信建投证券认为,散热方面将是AI算力领域未来几年核心技术升级方向之一,英伟达单卡功耗从700瓦到1200、1400瓦,未来有望迭代至2000瓦+,并且大机柜、超节点的出现,热源的叠加使得散热难度进一步提升,因此散热成为了接下来持续迭代升级的方向。其次,目前供应商以台系、美系厂为主,如Coolermaster、AVC、BOYD及台达等,中国大陆供应商比例较低,随着液冷散热从研发走向大规模量产,中国大陆公司扩产能力更具优势,中信建投证券认为液冷散热领域一系列部件会有更多中国大陆供应商进入到全球供应体系。
DG视讯·(中国区)官方网站
服务器平台持续升级带来CCL材料等级提升及PCB层数增加。根据Prismark数据,PCIe3.0总线标准下,信号传输速率为8Gbps,服务器主板PCB为8-12层,相对应的CCL材料Df值在0.014-0.02之间,属于中损耗等级;PCIe4.0总线Gbps的传输速率,PCB层数需要提高到12-16层,CCL材料Df值在0.008-0.014之间,属于低损耗等级;当总线Gbps,PCB层数需要达到16层以上,CCL材料Df值降至0.004-0.008区间,属于超低损耗材等级。2024年BrichStream平台开始逐渐渗透,尽管PCIe标准认为5.0(AMD平台对应Zen5),但CCL材料等级已经逐渐向UltraLowLoss升级,PCB板层数提升至18-22层。
AI服务器PCB层数及CCL等级显著高于传统服务器,且新增GPU板组。由于AI服务器架构相对更复杂、性能要求更高,单台服务器中PCB价值量较传统普通服务器会有明显的提升。其中PCB价值量增加点来自于:
(1)新增UBB母板。AI服务器最大的差异在于在传统CPU的基础上增加GPU模块来支持计算功能,因此从过往的1块主板(CPU母板)为主变为2块主板(CPU母和GPU母版)。UBB主板是搭载GPU加速卡的平台,与GPU加速模块(SXM/OAM模块)直接相连,为GPU加速模块提供高效的数据传输与交换通道,同时具备一定的数据管理功能,通常具有高性能、高稳定性和高可拓展型等特点。
(2)OAM加速卡增加HDI需求。在AI服务器中,为了增加GPU互连的通道数和传输速率,其硬件方案集成度都相对以往CPU更高,对应的PCB转向HDI。英伟达A100、H100、GH200、B100产品的加速卡均采用HDI工艺制造,在NVL72的机架架构中,switchtray也有可能采取HDI工艺。
北美PCB账面与账单比率连续8个季度维持在1以上。账面与账单比率是通过将过去三个月预订的订单价值除以调查样本中同期公司的销售额计算得到的,账面与账单比率超过1.00的比率表明当前的需求领先于供应,这是未来三到十二个月销售增长的积极指标, 2024年9月至2025年4月,北美PCB在账面与账单比例分别为1.08、1.25、1.15、1.19、1.24、1.33、1.24、1.21,目前已连续8个月维持正在1以上。
PCB材料方面,相比H100的CPU主板、OAM和UBB所用到的M6/M7级CCL,GB200 NVL72的superchip材料将升级为更高等级(M7+)的CCL,损耗降低,同时信号传输速率更高、布线密度更大、散热效果更好的HD。