(原标题:GPU,警钟敲响!)
若是您但愿不错常常碰头,接待标星储藏哦~
因为GenAI的火热,带动了英伟达了GPU的遗址。
阐发半导体分析公司TechInsights的一项推敲,Nvidia 在 2023 年的数据中心 GPU 出货量呈爆炸式增长,共计约 376 万台。推敲涌现,与 2022 年比较,Nvidia 2023 年的 GPU 出货量增长了 100 多万台,那时 Nvidia 的数据中心 GPU 出货量共计为 264 万台。
而阐发Jon Peddie Research九月发布的季度 GPU 出货量禀报,季度 GPU 出货量从 2024 年第一季度到 2024 年第二季度增长了 1.8%。这也标记着合座出货量同比增长了 16%。
然则,千般迹象表明,GPU的遗址,将要罢明晰。
GPU的基本旨趣
从架构上看,单个 GPU由多个处理器集群 (PC:Processor Clusters) 构成,每个集群皆包含多个流式多处理器 (SM)。每个 SM 包含一个与其中枢细巧交互的 1 层提示缓存 (L1)。常常,SM 在从高带宽动态当场存取存储器 (DRAM) 探员数据之前会运用其 1 层缓存 (L1) 并分享 2 层缓存 (L2)。GPU 的架构旨在处理内存蔓延,更闪耀推测打算,使其不太受从内存检索数据所圆寂时刻的影响。唯有GPU 有填塞的推测打算才智保握冗忙,任何潜在的内存探员蔓延皆会被有用遮盖。SM 是 GPU 的主力,庄重引申并行任务、料理内存探员以及引申多样推测打算。这些推测打算范围从基本的算术和逻辑运算到复杂的矩阵操作和挑升的图形或科学推测打算。这些皆针对并行引申进行了优化,以最大遏抑地培植 GPU 的效力和性能。
FMA (Fused Multiply-Add)是当代神经集聚集最常见的运算,是全集结层和卷积层的构建块,这两者皆不错看作是矢量点积的集合。此运算将乘法和加法合并为一个方式,从而提供推测打算效力和数值准确性。
这里,a 和 b 相乘,并将乘积加到 d 上,获取 c。乘加运算在矩阵乘法中被多数使用。在矩阵乘法中,收场矩阵的每个元素皆是多个乘加运算的总额。
探究两个矩阵 A 和 B,其中 A 的大小为 m×n,B 的大小为 n×p。收场 C 将是一个大小为 m×p 的矩阵,其中每个元素 cij 的推测打算状貌如下:
收场矩阵 C 的每个元素皆是 A 中某一排和 B 中某一列对应元素的乘积之和。由于每个推测打算皆是颓败的,因此不错并行引申:
并发矩阵乘法具有挑战性。已毕高效的矩阵乘法在很猛进程上取决于所使用的特定硬件和所惩办问题的界限。矩阵乘法波及多数颓败的元素运算。GPU 旨在高效处理此类并行责任负载,数千个中枢同期引申这些运算。
GPU 常常被视为 SIMD(单提示多数据)并行处理单位,不错对多数数据同期引申交流的提示。由于 GPU 具有并行 SIMD 特质,矩阵乘法速率不错权臣培植,这种加快关于需要及时或近及时处理的应用要领至关遑急。
从3D渲染到HPC
正因为具备这些特质,GPU 领先是为了增强 3D 图形渲染而创建的。跟着时刻的推移,它变得愈加通用和可编程。它们通过高档照明和暗影添加了更好的视觉效果和传神场景的功能,透顶改变了游戏。
让咱们从一个浅陋的处理器任务启动 — 在屏幕上涌现图像(如下所示)。
固然看起来很浅陋,但这项任务波及几个方式:几何变换、光栅化、片断处理、帧缓冲区操作和输出合并。这些空洞了 GPU 管说念渲染 3D 图形的经过。
在 GPU 管说念中,图像被调养为多边形网格暗示,如下所示:
单个茶壶图像被调养成由数百个三角形构成的网格结构,每个三角形以交流的状貌单独处理。
在处理这个“浅陋”的任务时,GPU 提供了哪些 CPU 无法提供的功能?高端做事器 CPU 最多不错有 128 个内核,因此 CPU 不错同期处理茶壶中的 128 个三角形。用户看到的是部分渲染的茶壶,跟着 CPU 内核完成并选拔新的三角形进行渲染,茶壶会逐步完成。
从这个法式不错看到,GPU 引申基于矢量的数学推测打算和矩阵乘法来渲染图像。渲染一个浅陋的茶壶需要大致 192 字节,而一个包含 100 个对象的复杂 GTA 场景则需要大致 10KB。
但它并莫得停步于此。
因为GPU 的内置并行性和高隐隐量加快了推测打算,鼓励推敲东说念主员使用 GPU 进行卵白质折叠模拟和物理推测打算等任务。这些早期后果表明,GPU 不错加快图形渲染之外的推测打算密集型任务,举例神经集聚集使用的矩阵和向量运算。尽管神经集结不错在莫得 GPU 的情况下已毕,但其功能受到可用推测打算才智的截止。GPU 的出现为有用磨真金不怕火深度和复杂的神经集结提供了必要的资源,鼓励了深度学习本事的快速发展和正常摄取。
为了使 GPU 大致有用地处理多样任务,Nvidia 配置了不同类型的 GPU 中枢,挑升用于多样功能:
CUDA 中枢:用于通用并行处理,包括渲染图形、科学推测打算和基本机器学习任务。
Tensor Cores:专为深度学习和东说念主工智能而瞎想,它们不错加快矩阵乘法等张量运算,这 关于神经集结的磨真金不怕火和推理至关遑急。
RT 中枢:专注于及时光芒跟踪,提供图形中传神的灯光、暗影和反射。
当中,Tensor Cores 为专用硬件单位,它们旨在加快张量运算,张量运算是矩阵乘法的广义方式,尤其是在AI 中常见的羼杂精度推测打算中。与 CPU 比较,GPU 不仅速率更快,何况在矩阵乘法任务中更节能。GPU 每瓦功耗可引申更多推测打算。这种效力在数据中心和云环境中至关遑急,因为这些环境中的能耗是一个遑急问题。通过将乘法和加法勾搭为一个优化的运算, GPU 不错提供权臣的性能和精度上风。
现在,咱们还是详情了 GPU 的以下要津特质:大界限并行高隐隐量、专用硬件、高内存带宽、能源效力、及时处理和加快。通过运用这些功能(尤其是矩阵数学),GPU 可为 HPC 和 AI 任务提供无与伦比的性能和效力,使其成为从预先进本事和复杂推测打算挑战的推敲东说念主员、配置东说念主员和组织的首选,大致被正常适用于分子能源学模拟、天气和表象建模、地震数据处理、磨真金不怕火深度神经集结、及时物体检测和当然话语处理 (NLP)等应用。这进而促成了GPU最大玩家英伟达的郁勃。
然则当年的信号表明,GPU的传闻可能要破了。
“不成只盯着GPU”
在日前,炒白银AMD首席引申官苏姿丰(Lisa Su)采取华尔街日报采访时暗示,跟着行业将元气心灵聚集于愈加要领化的模子瞎想,将有契机构建更多在可编程性和活泼性方面条件不那么高的定制芯片。这种芯片将愈加节能、体积更小、老本更低。
“目下,GPU是谎言语模子的首选架构,因为GPU在并行处理方面高出高效,但在可编程性方面有所欠缺,”苏姿丰说。“五年多后它还会是首选架构吗?我以为情况会发生变化。”
苏姿丰预测,五年或七年时刻内GPU还不会失势,但会出现GPU之外的新势力。
华尔街日报进一步指出,亚马逊(Amazon)和谷歌等大型云推测打算提供商还是配置了我方的定制AI芯片供里面使用,举例亚马逊的AWS Trainium和AWS Inferentia,以及谷歌的张量处理单位(TPU)。这些芯片只用于引申特定功能:举例,Trainium只可磨真金不怕火模子,而Inferentia只可进行推理。推理比磨真金不怕火的强度低,在磨真金不怕火经过中,模子要处理新信息并作念出反应。
博通(Broadcom)首席引申官陈福阳(Hock Tan)本年在一次里面讲话中暗示,该公司定制芯片部门的季度营业利润越过10亿好意思元。该部门主要匡助谷歌制造AI芯片。
市集谍报公司海外数据公司(International Data Corp., 简称IDC)推测打算半导体推敲副总裁Shane Rau暗示,定制芯片在节能和老本方面具有很大上风,体积也小得多,因为它们不错在一定进程上进行硬集结:它们不错引申一项特定功能,运行一种特定类型的模子,以致不错运行某一个特定模子。
但Rau暗示,贸易化销售这些超等定制化专用芯片的市集仍不纯熟,这是AI模子篡改令东说念主应接不暇的一个发扬。
推敲公司Gartner的副总裁分析师Chirag Dekate暗示,高度定制的芯片还存在活泼性和互操作性不及的问题。这种芯片高出难以编程,常常需要定制软件堆栈,何况很难让它们与其他类型的芯片协同责任。
但如今好多芯片居品皆呈现出某种中间情景,一些GPU不错进行更多定制,一些专用芯片有一定进程的可编程性。这为芯片制造商带来契机,以致是在生成式AI愈加要领化之前。这也可能是个费劲。
“这是咱们一直在用功惩办的一个大问题,”Etched并吞首创东说念主兼首席引申官Gavin Uberti说。这家初创公司出产的芯片只在Transformer架构上进行推理,该架构由谷歌在2017年配置,而后成为谎言语模子的要领。尽管在一定进程上不错定制,但芯片还必须领有填塞活泼性,以合适依模子而不同的较小功课。
“目下,这些模子还是填塞踏实,我以为押注Transformer说得通,但我以为押注Llama 3.1 405B目下还不行,”Uberti说,他指的是Meta Platforms的AI模子。“Transformer还会在,但它们会变得更大、不停进化。”他补充说,“你必须防御,不要太挑升化。”
AMD首席引申官苏姿丰暗示,推测打算方面也莫得全能的惩办决策。畴昔的AI模子将使用不同类型芯片的组合,包括现在占主导地位的GPU以及仍有待配置的更挑升化的芯片,以已毕多样功能。
“还会有其他架构,”她说。“仅仅这将取决于模子的发展。”
正如IEEE在报说念中所说,昭着,Nvidia 并不衰退竞争敌手。相同默契的是,在畴昔几年内,莫得一家竞争敌手大致挑战 Nvidia,更别说打败它了。本文华访的所有东说念主皆情愿,Nvidia 目下占据着无与伦比的主导地位,但这并不虞味着它将长久排挤竞争敌手。
“听着,市集需要选拔,”分析师Moorhead 说。“若是到 2026 年,我无法念念象 AMD 的市集份额会低于 10% 或 20%,英特尔亦然如斯。常常,市集可爱三家公司,而咱们有三个合理的竞争敌手。”另一分析师Kimball 暗示,与此同期,超大界限公司可能会挑战 Nvidia,因为他们将更多的 AI 做事回荡到里面硬件上。
然后还有不祥情要素。Cerebras、SambaNova 和 Groq 是稠密初创公司中的杰出人物,它们但愿通过新颖的惩办决策蚕食 Nvidia 的市集份额。此外,还罕有十家其他公司加入其中,包括 d-Matrix、Untether、Tenstorrent和Etched,它们皆寄但愿于针对生成式 AI 优化的新芯片架构。
这些初创公司中可能有好多会失败,但也许会有下一个 Nvidia 从幸存者中脱颖而出。
https://www.hpcwire.com/2024/06/10/nvidia-shipped-3-76-million-data-center-gpus-in-2023-according-to-study/
https://www.hpcwire.com/2024/09/23/how-gpus-are-embedded-in-the-hpc-landscape/
https://www.hpcwire.com/2024/07/30/understanding-the-gpu-the-catalyst-of-the-current-ai-revolution/
https://cn.wsj.com/articles/as-ai-matures-chip-industry-will-look-beyond-gpus-amd-chief-says-61990fb0
https://spectrum.ieee.org/nvidia-ai
半导体杰作公众号保举
专注半导体领域更多原创现实
存眷大众半导体产业动向与趋势
*免责声明:本文由作家原创。著作现实系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复旧,若是有任何异议,接待关连半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3895现实,接待存眷。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的现实就点“在看”分享给小伙伴哦