英伟达最近遇到些麻烦,新推出的GPU出现散热问题,影响了大客户的订单。为保持“算力霸主”的地位,英伟达急需找到解决办法。有消息称,英伟达将在3月的GTC大会上推出CPO交换机,如果试产顺利,8月就能量产,实现115.2T的信号传输。供应链猜测,英伟达对产能非常着急。
尽管英伟达CEO黄仁勋声称供货一切顺利,但GB200系列的出货情况并不理想。该系列机柜设计复杂,高功耗和高散热需求带来了挑战。单个机柜的问题已大致解决,但多机柜连接时需要8万根铜线,散热和信号干扰等问题接踵而至。这些问题已经影响到微软、亚马逊、谷歌和Meta等大客户,他们选择推迟或取消Blackwell订单,转投Hopper。Blackwell机柜的功耗高达120-132千瓦,传统冷却系统难以应对,加上连接故障导致热量分配不均,进一步加剧了热管理难题。
面对这些挑战,英伟达将目光转向CPO技术。CPO即光电共封装,通过缩短光信号输入与运算单元之间的电学互连长度,提高互连密度并降低功耗,是解决未来数据处理中高速传输问题的重要途径。英伟达研究人员表示,CPO将带来重大变革,光学器件与ASIC封装在一起,可降低能耗、提升带宽。摩根士丹利预测,2023年至2030年,CPO市场规模将从800万美元激增至93亿美元,年复合增长率高达172%。英伟达计划在2025年下半年推出的GB300芯片及下一代Rubin平台采用CPO技术,以突破现有互连限制,提升通信质量。
众多科技巨头如AMD、思科、IBM和英特尔也在探索CPO技术。例如,Marvell宣布其定制AI加速器架构整合了CPO技术,大幅提升服务器性能;IBM则实现了CPO技术的重大突破,可以大幅缩短AI模型训练时间并节省能源。不过,CPO技术要达到量产阶段仍需时间。台积电董事长魏哲家表示,CPO技术已有初步成果,但量产还需1年甚至1年半的时间。此外,黄仁勋表示Blackwell系统已开始全面量产,初期面临的挑战是正常的。