bigsur 英偉達,bw2021英偉達
chanong
自去年英偉達市值突破1萬億美元以來,這家加速計算公司越來越受到全球的關注。
今年2 月,NVIDIA 市值一度突破2 萬億,這家加速計算公司的人氣再次高漲,來自世界各地的超過11,000 名與會者涌向今天在加州圣何塞舉行的GTC 2024。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛開場說道:“未來將是富有創(chuàng)造力的。這就是為什么這是一個全新的行業(yè)!痹诖_?沙掷m(xù)性的同時繼續(xù)進行更多計算。 ”
黃仁勛表示,“加速計算已經(jīng)達到了臨界點,通用計算正在失去動力。與通用計算相比,加速計算可以顯著提高任何行業(yè)的速度。我們可以做到。”
新行業(yè)需要更大的模型,而更大的多模式人工智能需要更大的GPU。
Jen-Hsun Huang 從口袋里掏出一塊新的Blackwell 芯片,并將其放在Hopper 芯片旁邊,后者看起來比后者小。
與基于NVIDIA 上一代H100 GPU 構建的系統(tǒng)相比,DGX SuperPOD 基于NVIDIA GB200 構建,對大型語言模型的性能提升了30 倍,使得具有數(shù)萬億個參數(shù)的模型能夠得到處理。
架構迭代帶來了這些顯著的性能改進。這證明NVIDIA仍在高速計算的道路上快速前進,并且NVIDIA正在進一步拉大與其追趕者的距離。
NVIDIA還有更雄心勃勃的目標:GTC2024推出的NVIDIA NIM微服務可以通過推理加速普及生成式AI,而這正是生成式AI具有更大商業(yè)價值的地方。
“人工智能的下一波浪潮將是人工智能學**物理世界!秉S仁勛也有長遠的計劃。
Blackwell架構如何支持10萬億參數(shù)模型的需求?
最新的Blackwell 架構是兩年前推出的Hopper 架構的后繼者,延續(xù)了Nvidia 以科學家命名架構的傳統(tǒng),新架構以加州大學伯克利分校數(shù)學家David 的名字命名,Harold Blackwell 是一位專門研究博弈論和統(tǒng)計學的數(shù)學家。是第一位當選為美國國家科學院院士的黑人學者。
與Hopper架構GPU相比,Blackwell架構GPU的單芯片訓練性能(FP8)比Hopper架構高2.5倍,推理性能(FP4)比Hopper架構高5倍。
需要一套獨特的技術來使Blackwell 架構能夠支持高達10 萬億個參數(shù)的模型訓練和實時LLM 推理。
先進工藝和chiplet技術是關鍵之一。 Blackwell架構GPU擁有2080億個晶體管,采用專門定制的雙光刻臨界尺寸4NP臺積電工藝制造。 GPU 芯片通過10 TB/s 芯片間互連進行連接。集成GPU。
為了更好地支持Transformer 模型,Balckwell 架構集成了第二代Transformer 引擎,支持新的微張量縮放,并將NVIDIA 動態(tài)范圍管理算法集成到NVIDIA TensorRT-LLM 和NeMo Megatron 框架中。新的FP4 AI 推理功能使您的計算能力和模型大小加倍。
為了擴展Blackwell,NVIDIA 構建了一款名為NVLink 開關的新芯片。每個芯片可以以1.8 TB/秒的速度連接四個NVLink(比上一代快近10 倍),減少網(wǎng)絡流量并消除流量擁塞,幫助構建GB200。
NVIDIA GB200 Grace Blackwell Superchip 通過900 GB/s 超低功耗NVLink 芯片間互連將兩個Blackwell NVIDIA B200 Tensor Core GPU 連接到NVIDIA Grace CPU。
GB200是NVIDIA GB200 NVL72的主要組成部分。
NVIDIA GB200 NVL72 是一款多節(jié)點處理器,結合了36 個Grace Blackwell 超級芯片,包括72 個Blackwell GPU 和36 個Grace CPU,通過第5 代NVLink 互連,并集成了NVIDIA BlueField -3 數(shù)據(jù)處理器的水冷機架規(guī)模系統(tǒng)。這使得超大型人工智能云中的云網(wǎng)絡加速、統(tǒng)一存儲、零信任安全和GPU 計算彈性成為可能。
與相同數(shù)量的NVIDIA H100 Tensor Core GPU 相比,GB200 NVL72 可提供高達30 倍的性能提升,并將成本和能耗降低25 倍。
NVIDIA GB200 NVL72 在單個機架中提供720 petaflops 的AI 訓練性能和1.4 exaflops 的AI 推理性能。該機器包含600,000 個零件,重3,000 磅。
黃仁勛說:“目前地球上可能只有三臺exaflops 機器。而這就是一個機架中的一個exaflops 人工智能系統(tǒng)。”
進一步支持具有10 萬億參數(shù)的大型模型需要更強大的DGX SuperPOD。
基于Grace Blackwell的DGX SuperPOD由八個或更多DGX GB200系統(tǒng)構建,每個系統(tǒng)包含36個NVIDIA Grace CPU和72個NVIDIA Blackwell GPU,并采用新型高效液冷機架,采用規(guī)模架構。
該系統(tǒng)包括GTC 2024上發(fā)布的第5代NVIDIA NVLink、NVIDIA BlueField-3 DPU、NVIDIA Quantum-X800 InfiniBand網(wǎng)絡(為每個GPU提供每秒800 GB的帶寬)以及新一代DGX,還需要網(wǎng)絡計算能力。 SuperPOD 架構改進了4 倍,可擴展至數(shù)萬個GB200 超級芯片。
用戶可以通過NVLink連接8個DGX GB200系統(tǒng)中的576個Blackwell GPU,提供11.5 exaflops的AI超級計算能力和具有FP4精度的240 TB高速內存,并且通過額外的機架進行擴展也可以做到。
2016年,黃仁勛給了OpenAI 0.17 petaflops的DGX算力,現(xiàn)在DGX GB200算力以exaflops計算。
除了GB200之外,NVIDIA還發(fā)布了NVIDIA DGX B200系統(tǒng),這是一個集成的通用AI超級計算平臺,用于訓練、微調和推理AI模型。
DGX B200是DGX系列的第6代,采用風冷機架設計,配備8個NVIDIA B200 Tensor Core GPU和2個第5代Intel Xeon處理器。
DGX B200 系統(tǒng)提供144 petaflops(FP4 精度)的AI 性能、1.4 TB GPU 內存和64 TB/s 內存帶寬,為萬億參數(shù)模型系統(tǒng)提供實時推理速度,比前幾代快15 倍。產(chǎn)品。
此外,DGX B200 系統(tǒng)還包括高性能網(wǎng)絡,包括八個NVIDIA ConnectX-7 網(wǎng)卡和兩個BlueField-3 DPU,可通過NVIDIA Quantum-2 InfiniBand 和NVIDIA Spectrum 進行連接。每個網(wǎng)絡可提供高達400 Gb/s 的帶寬。 X以太網(wǎng)網(wǎng)絡平臺支持更高的AI性能。
“未來,數(shù)據(jù)中心將成為人工智能工廠。人工智能工廠的使命不僅是產(chǎn)生收入,而且是產(chǎn)生智能。”黃說。
AI推理微服務挖掘“金礦”
黃詹勛說:“生成式人工智能將改變應用程序的創(chuàng)建方式!蔽医忉屨f,將重點關注結果審核。
在GTC 2024 上,我們發(fā)布了NVIDIA NIM 微服務。它基于NVIDIA 的加速計算庫和生成式AI 模型而構建。我們提供基于NVIDIA 推理軟件(例如Triton Inference Server 和TensorRT-LLM)的預構建容器,以便開發(fā)人員能夠部署Time。時間從幾周縮短到幾分鐘。
“企業(yè)IT行業(yè)正坐擁一座‘金礦’。他們擁有多年來創(chuàng)造的所有優(yōu)秀工具(和數(shù)據(jù))。如果他們能把這個‘金礦’變成人工智能助手就好了!秉S說?梢詾橛脩籼峁└嗟目赡苄浴 ”
NVIDIA 幫助Cohesity、NetApp、SAP、ServiceNow 和Snowflake 等領先技術公司構建AI 和虛擬助手。其他地區(qū)的實施工作也在取得進展。
在通信領域,NVIDIA 推出了6G 研究云。它是一個由AI 和Omniverse 驅動的生成平臺,采用NVIDIA 的Sionna 神經(jīng)無線電框架、NVIDIA Aerial CUDA 高速無線電接入網(wǎng)絡和適用于6G 的NVIDIA Aerial Omniverse 數(shù)字孿生構建。
在半導體設計和制造領域,NVIDIA 正在與TSMC 和Synopsys 合作,將cuLitho 商業(yè)化,這是一個計算光刻平臺,可將半導體制造中計算最密集的工作負載加速40-60 倍。
黃仁勛還宣布推出NVIDIA 的地球氣候數(shù)字孿生Earth-2。它支持交互式高分辨率模擬,并可以在幾秒鐘內發(fā)出預警和更新的預測。傳統(tǒng)模型在CPU 上運行可能需要幾分鐘到幾小時。
黃詹勛表示,AI 最大的影響將在醫(yī)療領域,NVIDIA 已經(jīng)在該領域致力于成像系統(tǒng)、基因測序設備以及與主要手術機器人公司的合作。
NVIDIA 推出新的生物學軟件。 GTC 2024 發(fā)布了20 多個新的微服務,使全球醫(yī)療保健公司能夠在任何地方、任何云上利用生成人工智能的最新進展。
人工智能的下一波浪潮是從物理世界學**的人工智能
黃說:“我們需要一個模擬引擎來為機器人提供世界的數(shù)字表示。然后它有一個‘健身房’來學**如何成為一個機器人。我們稱之為Omniverse!
NVIDIA 宣布將NVIDIA Omniverse Cloud 作為API 提供,從而擴展了全球領先的工業(yè)數(shù)字孿生應用程序和工作流程創(chuàng)建平臺在整個軟件制造商生態(tài)系統(tǒng)中的覆蓋范圍。
為了展示它的工作原理,黃分享了機器人倉庫—— 的演示。該倉庫使用多攝像頭傳感和跟蹤來監(jiān)控工人并協(xié)調能夠自主操作的機器人叉車,整個機器人堆棧都在運行。
NVIDIA 還宣布將Omniverse 引入Apple Vision Pro。通過新的Omniverse Cloud API,開發(fā)人員將能夠將交互式工業(yè)數(shù)字雙胞胎傳輸?shù)絍R 耳機。
Omniverse Cloud API 已被全球最大的工業(yè)軟件制造商采用,包括Ansys、Cadence、達索系統(tǒng)的3DEXCITE 品牌、Hexagon、微軟、羅克韋爾自動化、西門子和Trimble。
機器人的巨大空間
“任何會動的東西都可以變成機器人,汽車行業(yè)將成為其中的重要組成部分,”范仁勛說。
雷鋒網(wǎng)獲悉,比亞迪選擇了NVIDIA新一代自動駕駛汽車計算平臺,利用DRIVE Thor打造下一代電動車隊。浩斌、小鵬汽車、理想汽車、極氪也宣布,未來的汽車產(chǎn)品將基于DRIVE Thor打造。
仿人機器人也是機器人的一個重要方向。
為了實現(xiàn)這一目標,NVIDIA 推出了Project GR00T(General Robot 00 Technology 的縮寫),這是一個專為人形機器人設計的通用基礎模型。
GR00T脫胎于NVIDIA的Isaac機器人平臺工具。 GR00T驅動的人形機器人接受并處理來自文本、音頻、視頻甚至現(xiàn)場演示的輸入,以理解自然語言、模擬人類行為、在現(xiàn)實世界中進行操作、了解世界、進行導航和交互。
黃仁勛還發(fā)布了Jetson Thor,這是一款基于NVIDIA Thor 片上系統(tǒng)的新型人形機器人計算機,并對NVIDIA Isaac 機器人平臺進行了重大升級。
Jetson Thor 使用Blackwell 架構提供每秒800 萬億次8 位浮點運算的AI 性能,以執(zhí)行復雜的任務并使用Transformer 引擎處理多個傳感器,并運行GR00T 等多模式生成AI 模型。
用一句話來概括GTC的新發(fā)布,可以借用黃仁勛的話:“我們創(chuàng)造了一款面向生成式AI時代的處理器!








