推广 热搜: 京东  联通  iphone11  摄像头  iPhone  企业存储  XSKY  京东智能采购  网络安全  自动驾驶 

AI芯片争霸战:英伟达霸主地位还能稳多久?

   日期:2025-05-01     作者:itcg    浏览:1069    我要评论    
导读:AI芯片争霸战:英伟达霸主地位还能稳多久?

在人工智能大模型浪潮的推动下,英伟达的数据中心GPU出货量在2023年实现了显著增长,总计达到了约376万台,相较于前一年的264万台,增幅超过百万台。这一增长使英伟达成为历史上硬件公司中规模增长最快的之一。据行业预测,到2025年,英伟达的GPU销量有望达到650万至700万块。

尽管英伟达在GPU市场上的垄断地位依旧稳固,但围绕其长期持久性(超过6年)的讨论却从未停歇。面对这一形势,谷歌、微软、亚马逊和meta等海外科技巨头正积极整合AI需求,力图成为NPU的主要消费者,并纷纷自研具备竞争力且高度可靠的芯片。

与此同时,计算需求的急剧增加已经触及了资本支出、电力供应和基础设施建设的极限。这一现状正促使行业转向分布式、垂直集成和协同优化的系统,包括芯片、机架、网络、冷却、基础设施软件及电源等方面。然而,英伟达在这一转型过程中显得准备不足。

据英伟达透露,在2025财年第四季度,公司交付了价值110亿美元的Blackwell芯片,这些芯片主要销售给云巨头,占据了英伟达数据中心业务收入的相当一部分。然而,业内分析认为,云巨头在英伟达的市场份额可能会缩减,同时,小型或短期GPU租赁厂商的利用率和投资回报率也普遍较低。

随着前沿模型的成本降低、性能和泛化能力提升,尤其是借助有效的RAG和广泛可用的微调机制,许多使用特定数据训练专有模型的公司面临价值点不明确的问题,这些长尾买家的需求也变得不稳定。与此同时,一些小型独立云厂商的未来前景也不明朗,尽管英伟达曾给予他们资金和GPU支持,但这些厂商在产品多样性、基础设施和人才方面仍然匮乏。

相比之下,云巨头的需求却迅速增长。外部开发者面临长期资源短缺,交付周期长达数月,而内部需求也加剧了这一趋势。云巨头凭借其规模和基础设施经验,在摊销折旧和停机成本方面具有优势,同时提供高灵活性、安全性和可靠性,从而获得了高AI服务利润率和客户信任度。

谷歌就是一个典型的例子。自2013年以来,谷歌一直在内部开发TPU。尽管开发周期长达数年,但在预算、人才和架构有限的情况下,TPU v1从启动到部署仅用了15个月。并且,历届TPU在性能和能耗上相较于GPU都展现出优势。如今,TPU已经发展到第六代Trillium,能效和HBM容量提高了一倍,峰值性能提高了三倍以上。而谷歌也在迭代其软件堆栈,由TensorFlow过渡到JAX,用于处理编译和低级部署优化。TPU和JAX的组合几乎完全取代了谷歌内部用于AI工作负载的英伟达GPU。

本月初,谷歌发布了第七代TPU“Ironwood”,作为谷歌首款面向AI推理时代的TPU,单芯片峰值算力可达4614 TFLOPs。Ironwood可扩展至9216片芯片集群,性能是第六代TPU Trillium的两倍,并且能效较之于第一款Cloud TPU高出近30倍。HBM带宽也有所提升,单颗Ironwood芯片的内存带宽达7.2Tbps,是Trillium的4.5倍。

除了谷歌,亚马逊也在加速芯片开发。自2015年收购Annapurna Labs后,亚马逊推出了第二代Inferentia和新的Trainium芯片。预计到2026年,相关支出将达到25亿美元。微软则推出了自研AI芯片Maia 100芯片和相关的Cobalt 100 CPU,并推出了兼容Pytorch的编译器Maia SDK,依靠OpenAI的Triton框架来取代CUDA。

meta同样在布局ASIC。早期,meta芯片主要为Instagram和Reels提供DLRM。随着第二代MTIA芯片发布和支持定制软件堆栈,meta已开始在Facebook和Instagram的新闻推送推荐系统中使用推理芯片。meta还在合成数据生成方面扩大芯片使用,并据外媒报道,已经在小规模部署测试其首款用于AI训练的自研芯片。

当前,AI的工作负载偏向于训练。即使在微软,训练也约占算力需求的六成。然而,随着重心由训练转向推理,英伟达面临的压力也在增大。业内分析认为,在许多情况下,尤其是对于中型模型,上一代A100的性价比都高于H100。而AMD也正在成为更具竞争力的替代品。甚至从长远来看,尤其是对于小模型而言,基于CPU的推理或为最佳选择。

分布式系统带来的挑战同样不容忽视。尽管英伟达B100的单芯片性能相当于3个Trillium TPU,但有观点认为,单芯片性能并不重要。云巨头能够垂直整合并利用其规模和专业打造总体上更经济、性能更高的分布式系统。这对于英伟达而言,将是一个难以竞争或适应的结构性趋势。

微软的数据中心设计就是一个例证。他们规划了自己的电信光纤网络,并推出新的ColorZ可插拔光收发器+DSP,以支持长距离数据传输,通过连接数据中心有效提高峰值集群性能。而谷歌则放弃了大型芯片,转而采用体积更小、成本更低、且具有深度互连的ASIC集群。这些努力都显著提高了系统的整体性能和效率。

基础设施正在变得愈发分布式。以meta为例,Llama 3的训练并非集中于单一数据中心。由于需要在包括AWS、Oracle等云上进行训练,meta正在通过与HammerSpace合作将多云多数据中心的数据完全统一起来。微软也正在为OpenAI连接遍布全国的集群。海外巨头都在积极探索实现真正的异步分布式训练。

分布式基础设施是继续扩展和计算新OOM的唯一途径。目前,算力仍旧是前沿模型发展的最大制约因素。而多数据中心训练允许使用规模较小、互联互通的数据中心,这不仅降低了成本,而且提高了吞吐量。同时,也加速了基础设施的建设。

然而,尽管分布式系统为非传统但资金雄厚的参与者创造了一些机会,但基础设施专业知识至关重要。巨头必须不断扩展以训练出更优秀的模型。长期来看,关键区别在于训练将在x00MW-xGW数据中心的“小型”联网园区中进行,而不是在xxGW级的单体数据中心中进行。

基于前述趋势,业内分析认为,英伟达将很难在性能或成本上竞争。其既无法与云深度集成,也无法定制硬件。除非发展出规模较小的客户,否则英伟达本身并不适合服务于跨集群或百亿亿次级的情况。英伟达面临着前所未有的长期挑战。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2