唐蕊:AI算力加速光模块迈向T比特时代
文 | 钛资本研究院,演讲 | 唐蕊(光纤在线资深分析师及执行主编)
不同光模块有哪些应用场景?迈向T比特时代后,不同材料平台有何机会?近期钛资本邀请光纤在线资深分析师及执行主编唐蕊进行分享,她于2003年加入光纤在线,长期观察、研究中国光通信产业及光器件企业,对于光通信企业、中国光通信市场的结构、特点、商业模式、发展格局有着深入研究。
熟悉光通信行业发展史,了解光纤通信技术发展历程,对光通信业新技术趋势有全面的了解和看法。本期分享主持人是钛资本半导体组、人工智能组资深行业专家周晔博士,在通信网管理软件、光通信芯片领域有超过二十年的研发和创业经验。以下为分享实录:
AI时代光互联的需求变革
1、AI时代对高速光互联的技术需求
这两年AI是光通信市场最大的利好。从去年到今年,资本市场中的CPO概念(光模块的新形态)已倍受关注。市场正在观察今年1.6T光模块是否能真正出货,这一技术的发展对AI算力和光通信光模块的发展历程至关重要。光模块技术在过去迭代周期相对较慢:在传统的电信市场,通常是十年迭代一个周期;到数据中心市场,大概是四年一个周期;而今天的AI算力已经加速到每年更新一代产品。
AI时代对光通信技术的需求不断增长,尤其是数据中心架构的变化对光产业带来了挑战。从支持400G光模块的25.6T交换机到支持800G的51.2T交换机的部署,显示了光模块技术的进步。国内外的互联网大厂,如字节、腾讯、阿里、百度等,都在自研并批量部署51.2T交换机。51.2T交换机的普及推动了400G和800G光模块成为主流,这代表了高速光模块技术的发展方向。
传统的通用数据中心的光模块需求在2023年上半年已经到了一个瓶颈期。但随着AI兴起,下半年直接拉起了400G和800G光模块的需求,直到今天。由于发展得快、需求又高,对行业造成了一定的痛点和挑战。第一个就是高密度,高密度又带动了能耗的增加,交换机能耗不断地提升,从25.6T到51.2T。快的话明年应该能够看到102T交换机的出现。交换机和光模块功耗的增加和密度过大,接下来会造成服务器和交换机的距离变得比较远。所以今年市场上看到400G单模的需求量变大了。就是因为整个数据中心的架构变了,需要光模块光互连的距离变长了。最后就是产业链更迭太快,产业能不能跟得上。
AI确实带给光通信产业巨大的潜力,我们从多个维度来看:
(1)高带宽与低功耗的平衡:随着数据中心对带宽的需求不断增加,光模块的速率正在迅速从400G到800G,过渡到1.6T,速率增加了4倍,而功耗也从10W增加到20W,很难保持速率增加而功耗不变。
(2)更高的连接密度:光模块的通道数从过去的4通道提升到主流的8通道,未来极有可能挑战16通道。这就要求在集成和耦合方面的技术要求更高,以满足更大的带宽需求。
(3)光模块方案的多样化:光模块都是带DSP时钟信号恢复的,而为了降低功耗、成本和时延,业界推出了去掉DSP的线性驱动可插拔光模块(LPO)方案。而为了进一步迎合多种场景的高带宽方案,光芯片的材料平台也在不断丰富,从短距的VCSEL和长距的EML,到硅光方案和薄膜铌酸锂等新技术,未来将进一步推动带宽的提升。
(4)AI对数据中心架构的影响:AI技术正在重塑数据中心的架构,今天的智算中心增加了Scale-up的后端加速网络,所以有了Scale-up和Scale-out的智算中心网络架构。英伟达在Scale-up架构中对高速光模块的需求非常旺盛,而在Scale-out架构中,除了英伟达的自有InfiniBand方案外,大部分厂商仍然采用以太网方式进行连接,这显示出不同网络架构对光通信技术的不同需求。
这里,我们再通过光纤在线年初发布的一张图表来具体了解AI应用前后光通信技术的迭代变化。
2012年,行业基于10G光芯片实现了40G(10G*4)的传输速率。到了2016年,100G(25G*4)的产品开始进入市场。尽管业界原本预计在2019年推出400G光模块,但200G产品在市场上的持续时间超出了预期。到了2021年,400G光模块开始出现,但直到2023年才真正实现大规模商用。在2023年之前,光通信技术的迭代周期大约是每四年一次。尽管如此,400G光模块在2022年的年出货量仍然不足200万只,显示出市场需求相对有限。然而,到了2023年,随着AI技术的兴起,整个市场格局发生了变化。AI对计算能力的需求远超传统的通用计算中心,导致对光通信产品的需求激增,物料供应开始出现紧张。这种需求的增长和迭代速度的加快,预示着行业可能将迎来每年一次的技术迭代周期。到了今年3月,行业已经开始重点展示1.6T的产品,而Arista公司更是展示了3.2T的可插拔光模块方案。这表明,AI技术的快速发展正在推动光通信行业以更快的速度进行技术创新和产品升级。
预计1.6T光模块的批量出货将于2024年第四季度开始,并在2025年第一季度正式上量。这一进展不仅标志着光模块技术的一个新里程碑,而且也预示着光通信行业将面临新的挑战和机遇。随着数据中心对带宽的需求不断增长,1.6T光模块将成为满足这些需求的关键技术,同时也将推动整个光通信行业的技术进步和市场扩张。
2、AI场景光互连技术分类
AI场景的光互连通常分为跨域光互连、通用以太网短距光互连、非以太网短距光互连这三类。通常我们关心比较多的就是中间的短距离(两公里以内的)光互连。但是跨域光互连,对应电信城域网络的需求在增加,尤其是今年,对应的相干光模块出货量在翻倍地增加。非以太网短距光互连领域,在AI服务器的内部,目前是用铜连接的需求较为密集,未来有可能会用光连接。包括存储芯片和GPU芯片之间的互连,都会考虑用光连接的方式。目前,已有厂商开始布局这一未来领域。
对于光互联技术,业界通常按照传输距离进行分类:目前关注比较多的是短距(两公里以内)、还有超长距(40-80公里)也是很多厂商目前在重点布局的。反倒是传统的数通10公里相对用量比较小。DCI之间都是用40-80公里光模块,AI数据中心集群之间的连接也属于长距ZR这部分。
AI时代光模块的需求和方案变化
AI对于整个光通信产业链的需求变化最重要的,一个是对带宽的要求,一个是对功耗的要求。往下一步走尤其是走到T比特级光模块,功耗是最大的挑战。整个行业,包括光模块和交换机制造商,以及最终互联网运营商,都非常关注能耗问题,因为它直接影响到数据中心的负载。
这里是一张关于800G的DR8或FR8模块的功耗分类(数据来自索尔思OFC上的演讲截图),显示DSP功耗占比最大,可以达到40%~65%。所以才会有LPO这样的方案出现,LPO直接去掉了DSP芯片。
不管是LPO还是今年新出现的LRO或者TRO,总体来说都是为了解决DSP带来的更大功耗。CPO则是直接不用DSP,然后光模块也不再是可插拔了,全部部署在交换机ASIC芯片周围去完成光电转换。无论哪种方案,当前所有的芯片厂商、模块厂商都在努力,终端厂商也都在验证。但如果在同等的技术条件(速率)下,可插拔光模块他们优先采用的方案,因为CPO也要考虑到最终的维护成本的问题。而且不管哪一种方案出来,除了速率带宽功耗,还要考虑整体的供应链,整个生态链是否足够完整,封装工艺是否仅此一家被过度依赖,最后还有成本的问题。
新技术的博弈通常考虑的因素是比较多的。尤其是生态链和维护的成本是大家考虑比较多一些的。LPO从去年推到今年好像这个热度降下来了,但事实上大家对LPO还是抱希望的。比如说在1.6T的时候,“LPO+硅光”的方案是不是更有机会一些,能够把这个功耗降得更低。但至少在800G层面DR8这个光模块产品为例,LPO方案是可以将整个交换机功耗降到35%~50%的。不管是交换机厂商还是互联网厂商现在相对来说都是比较感兴趣的。国内外多家终端用户也在花费大量的测试去完成LPO整机的测试方案。至于哪种方案将来会占主流,最后还是要看终端厂商。从我们的角度,它们不是完全替代的关系,一定是并存的。它们一定是有各自的范围的场景去应用。但整体产业依然对于可插拔光模块产业继续走下去抱有信心。
跨域相干光模块这个方案,前面关注比较多的还是内部的连接,实际上跨越这块也在慢慢走向T比特时代,我们现在看到三大运营商用的都还是400G。运营商的城域网一般是120公里以上的。DCI主要是40~80公里。海外Ciena和Infinera已经在推800G相干商用,1.2T和1.6T的相干已有厂商推出,只是目前还没有商用。总体上,无论是内部互连还是跨域互连,光模块都是迈向T比特级的。
国内外互联网商对高速光模块的需求,800G是主力,400G还有3~4家消费主力。
今年海外的一个变化是多模的转向单模。单模基本上要占到近七成。明年海外会延续800G需求,但逐渐会有些头部的客户会向1.6T去过渡。另外海外就是DCI互连也就是跨越相干的需求会越来越多。整体的驱动力就是Scale-out这个对于后端网络互连加速的需求。需求的主力,英伟达、谷歌这是头部,今年亚马逊和微软也都开始有了800G的需求,明年它们会不会有1.6T还要看一看。另外,Oracle、特斯拉今年也是这个市场需求的主力。国内这边不太一样,光芯片比较紧俏。拿不到更优的芯片。所以,大家会考虑用8通道50G的400G。所以今年400G也在起量。800G只有少量(两家)。所以整体上国内需求今年是400G,明年还是400G。然后慢慢地向800G去过渡。国内数据中心和算力中心多由三大电信运营商建设,城域网需求预计年底或明年将增长,对应DCI需求。国内互联网厂商开始自研支持800G的51.2T交换机,并开始部署。
今年,国内外互联网厂商对高速光模块的需求增长显著,特别是今年在AI智算带动网络加速的推动下。
华为凭借其自有AI服务器,配套光模块在市场中占据重要地位,而字节跳动、阿里、腾讯和百度等国内互联网大厂的需求同样旺盛。小型互联网商的需求相对较小,只有几万只,但整体市场相比去年有显著增长。
迈向T比特时代,不同材料平台的机会
今年,之所以1.6T很热,一个重要的因素是支持单波200G的光电芯片相对来说已经比较成熟了。这里罗列了能够支持单波200G的光电芯片厂商。
Lumentum和博通在两三年前就发布了支持单波200G的EML样品。今年已有Lumentum、三菱和博通宣布实现200G EML的量产,住友3月份也推出了200G EML。VCSEL做到200G已经很难了。但今年Coherent和博通推出了200G VCSEL芯片。配套的电芯片,Marvell已经展示了,3季度量产。博通9月份刚发布200G DSP。Credo当前主推100G DSP,预计明年发布200G DSP。
今年的OFC展会上,除了单波200G的VCSEL外,单波200G的硅光技术成为了焦点。这些技术的发展预示着1.6T光模块时代的到来,其中硅光技术尤其引人注目,因为它在调制带宽上取得了突破。华工正源在3月份发布了自研的硅光芯片,能够实现单波200G,而国内厂商赛丽和苏州的熹联光芯(Sicoya)也宣布了200G硅光调制方案 。硅光也带动了CW-DFB激光器的需求,因为CW-DFB的技术难度相比EML来说还是简单很多。这些进展表明,单波200G技术将成为光模块产业的一个重要分水岭。
多模VCSEL芯片一直是以国外厂商为主。今年博通、Coherent和Lumentum推出了单波200G的VCSEL芯片。在100G VCSEL市场,也是博通和II-VI占了主流,Lumentum在3D Sensor这块占用了精力可能比较多,目前也开始在光通信领域起量。另外就是通快收购了飞利浦,还有3D Sensor领域的索尼,开始在国内第二梯队这块特别活跃。目前的方案都是PAM4技术实现速率翻倍的,并非传统的NRZ。其它厂商也比较期待,但批量和去用,估计客户采用时间还比较长。
200G EML也一样。Lumentum、三菱、博通已宣布量产。索尔思宣布推出但是自用。源杰和住友已宣布发布200G EML。另外海思也主要是自研自用。值得关注的是100G EML,国内光芯片厂商可能会更有机会,源杰已发布100G EML芯片在客户端小批量,最近泽达半导体也已宣布推出了100G EML。EML竞争还是比较激烈,索尔思、海信、海思、光迅、AOI多家在自研。EML的潜力还是很大,本身技术和生态链已经成熟了。今年ECOC上,三菱已经发布了基于106 GHz实现400G单波的EML芯片。此外,InP的光子集成国外有两家在做,Infinera一直在做DWDM光子集成系统。
硅光今年很热,硅光其实不是新东西。2016年光纤在线就举办了硅光论坛。16年英特尔的硅光已应用在100G CWDM4的2km光模块,并在17、18年占到100G CWDM4光模块30%的份额。当时,业界对硅光很有信心。但那时数据中心对速度的需求还是不够快。400G通用计算中硅光没有占到份额。这一轮AI,又有几家公司去推硅光的方案。今年看至少突破20%问题不大的。一个是云晖,另一个是华工。都是用自研的硅光芯片去做硅光模块。云晖的硅光模块已进到谷歌了,占份额较大。硅光的速率能否达到单波400G是个问题,但硅光的集成潜力吸引力很大。Intel的硅光方案已完成激光器异质集成,其它的光源是外置的。目前,光模块厂商都自研或者参股来自供硅光芯片,模场转换、光纤阵列等配套产品,也相对成熟,提供商也比较多。
薄膜铌酸锂的优势是带宽足够高,优势很明显。单波400G的3.2T光模块可能会是机会,但走向3.2T,EML目前看起来是足够满足,那6.4T是否就有薄膜铌酸锂的机会了?硅基异质集成也是一个方向。硅基可以集成各种各样的材料。
小结
AI计算中心的快速发展正推动光模块技术进入T比特时代,这一趋势在国内外都有所体现。目前,数据中心内部互联(DCI)和跨域集群连接的需求日益增长,预计未来几年将有更多的跨域连接出现,从而带动DCI需求的增长。
在技术层面,1.6T光模块可能成为光模块市场的一个分水岭,类似于过去100G光模块的市场地位,周期比较长。目前,EML技术在800G光模块中占据主导地位,但随着技术的发展,其他材料平台如硅光和薄膜铌酸锂等也有可能成为未来的主流技术选择。这些技术平台都在积极突破,以满足更高的带宽和更低功耗的需求。
迈向单波400G,硅光与VCSEL都面临巨大挑战。EML还是在确定性地走向400G。另外LPO和硅光的结合可能会成为更佳方案。因为它有潜力进一步降低功耗并满足带宽需求,但这也依赖于整个产业链的验证和测试。
Q1:对于国产的EML,厂家还有机会吗?
A:在芯片制造领域,国内外厂商的技术积累存在显著差异,国际大厂拥几十年的经验,而国内厂商,最早的光芯片公司成立仅十年。尽管如此,国内厂商在接入网领域已经获得了不错的市场份额;而且持续投入大量的精力和财力在数通EML芯片,但技术上的差距不仅在于代际,还涉及到制程工艺的革新。
尽管国内外技术差距明显,不过国内厂商在单波100G EML技术上已取得突破,显示出巨大潜力。市场不应期望国内厂商能迅速匹敌单波200G技术,而应给予他们发展和成熟的时间。此外,头部企业若将产能转向单波200G,可能会为国内新兴厂商在单波100G EML市场上提供机会。考虑到成本因素,400G和800G光模块的在国内仍有较长的路要走,国内厂商可能会采用低成本的八通道400G方案,未来可能转向单波100G方案。
Q2: AI引领,能够出现不同于前面几次的避免内卷的带来的赚钱效应吗?
A:过去中国市场在3G到5G的发展中占据全球最大份额,政策引导下市场规模大,价格低廉,运营商成本被压缩。然而,当前AI驱动的数据市场有所不同,主要客户来自北美大厂,他们更注重供应商的持续性而非价格战,希望避免影响技术发展。目前,国内市场客户利润较低,而北美客户利润丰厚。若国内数据中心需求激增,可能导致价格战,但目前AI对光模块的需求显示,国内外市场存在利润差异。
Q3:中美脱钩会不会导致三巨头的占有率流出中国?
A:中美脱钩的讨论在行业内一直存在,随着这一趋势,许多厂商开始将目光转向东南亚市场。一些公司都在泰国等地建立了大型工厂,生产更高速的光模块,并期望未来能够通过东南亚的公司向北美客户出货。然而,海外生产可能会降低生产效率,因此中国制造和海外制造的结合显得尤为重要,两者都不能缺少。尽管制造业向东南亚转移可能会导致国内产能的牺牲,但中国的产能不会完全放弃。未来,生产制造的模式可能会是中国保留一部分,同时海外至少也有一个生产基地。
光模块是光纤通信系统的核心器件之一,是光通信设备最重要的组成部分,主要作用是实现光电转换。光模块具体包括光接收模块,光发送模块,光收发一体模块和光转发模块等,主要由光发射组件(含激光器)、光接收组件(含光探测器)、驱动电路和光、电接口等组成。AIGC带来的超大算力需求拉动通信基础设施建设及扩容,光模块作为数据传输的基础部件,在本次AI建设周期中举足轻重。在AI超算中心建设中,光连接朝着高速率、大密度方向发展,800G、1.6T光块的更新迭代也将加速。从光模块产业本身来看,作为中国的优势企业,具备直接打入北美AI产业链的能力。中国光模块企业占据全球60%以上的市场份额,这也将带动国内高速光芯片的突破。钛资本将和行业伙伴一起,共同见证光模块向T比特时代迈进。