推广 热搜： 京东联通 iphone11 摄像头企业存储 XSKY 京东智能采购 iPhone 网络安全自动驾驶

英伟达H100启用TensorRT-LLM：AI推理性能飙升

日期：2023-09-14 作者：itcg 浏览：745 我要评论

IT采购网9月9日消息，英伟达公司今日宣布推出了一项名为TensorRT-LLM的创新项目，旨在大幅提升其Hopper系列AIGPU上的语言模型推理性能。根据英伟达的介绍，TensorRT-LLM是一款深度优化的开源库，利用了一系列尖端技术，包括SmoothQuant、FlashAttention和fMHA等，以加速处理大型语言模型，如GPT-3(175B)、Llama Falcom(180 B)和Bloom等模型。

据悉，TensorRT-LLM的一个显著特点是引入了一种名为In-FlightBatching的调度方案，这使得GPU能够在处理大型计算密集型请求时，同时动态处理多个较小的查询。这一创新性的方案不仅提高了GPU的性能，还使得H100型号的吞吐量提高了2倍。

在性能测试方面，英伟达以A100作为基准，对比了H100和启用了TensorRT-LLM的H100。在GPT-J6B模型的推理性能测试中，H100相比A100提升了4倍，而启用了TensorRT-LLM的H100性能更是达到了A100的8倍。而在Llama2模型上，H100相比A100提升了2.6倍，而启用了TensorRT-LLM的H100性能则高达A100的4.6倍。

这一重大突破意味着英伟达将继续领导AI硬件领域的发展，通过优化其GPU性能，为大型语言模型等计算密集型任务提供更快速和高效的计算支持。据IT采购网了解，这将对人工智能应用在各个领域的发展产生积极影响，为未来的科技创新打开更广阔的可能性。

英伟达H100启用TensorRT-LLM：AI推理性能飙升人工智能

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

麒麟9006C：华为5纳米家族的新成员	中国大陆显示器线上市场：2023年11月销售火爆，创下新高
高通骁龙X Elite芯片挑战苹果M系列：硬件性能对决	百度AI新动态：文心一言插件商城正式上线，多功能一键触达

相关资讯

Processed in 0.134 second(s), 11 queries, Memory 1.48 M