Re: [新聞] 稱霸 AI 推理性能，NVIDIA B200 晶片海

作者LDPC (Channel Coding)

看板Stock

標題Re: [新聞] 稱霸 AI 推理性能，NVIDIA B200 晶片海

時間Tue Sep 3 03:04:53 2024

相關文章可以參考這個 https://36kr.com/p/2927059579722630 比較有意義的是這邊 https://spectrum.ieee.org/new-inference-chips 前言雖然大家都在討論AI要怎樣獲利但AI產品要獲利前有一個很重要的大前提就是AI infrastructure得先成熟也就是如何讓巨大數量消費者能在平台上(Large-scale) 能得到平台上的服務這個第一步關鍵就是Inference 上的成本算力提升也意味單位成本下降自從LLM興起後(GenAI) 直到去年都比較是Training上的改進像是軟體端有Deep-Speed 陸續整合到LLM/Transformer上能把訓練數度提高百倍(意味成本降低百倍) 硬體端有A100->H100 (Transformer加速) HBM容量變大等等此類但針對AI商業化的Inference塊一直很不明朗去年之前我個人認為Inference玩家就是NV/AMD/i皇(免強算半個)/ASIC玩家等大亂戰今年開始Inference開始有比較嚴謹的方式去量化"Large-Scale Service" 來推廣落地這都意味以後的服務平台成本會下降以現在GPT-4o 25.00元你可以使用1M tokens (註2) 想像一下以後的成本可以降到100倍以上同時也意味AI infra在走向產業落地而第二個連結(ieee)就是開始在量化Inference的成本/能力裡面用秒來計算能提供多少客戶請求(queries) 裡面有兩個比較重要的分類 (1) 一個是MoE 這是一種算法上的設計會成為將來主流他能在LLM包山包海的下游任務(例如文字總結寫程式醫療問題) 能動態選取專家所以在MoE上表現好對效能上來說都會好 (2)處理位元數降低(e.g., f32/bf16/f4) 處理位元數降低好處會帶來運算速度增快運算成本降低但通常缺點就是效能會變很糟 (正確率下降模型準度降低) 但NVDA弄出了一個4位元版本且準度沒有太大犧牲 Blackwell FP4運算效力非常誇張 ( https://reurl.cc/myrAMM ) 第二個連結可以看出明顯AI inference 老黃把眾家對手打得滿頭包...在第二張圖裏就算校正GPU數量狗家的TPU也是沒佔上風(註3) 處此之外還有一份報告是關於Llama3 ( https://www.aizws.net/news/detail/1238 ) 可以看見當算力拉高高算力高power 巨大集群系統容易崩潰就連老黃都無法避免然而這在A100叢集崩潰幾乎沒有出現過這也意味眾家對手再拉高power 算力軟體容易不穩定而崩潰在這個AI軍備競賽下時間永遠是個最重要的成本這也意味其他對手還只要沒在巨大集群驗證過都不能算上玩家 (目前只有狗家) 最後一個總結老黃的核心思想就是算力 (硬體+軟體+巨大cluster) 當年老黃在顯卡大戰說過我每半年提高顯卡算力一倍雖然一堆遊戲廠商跟我說他家電動遊戲不需要這樣強顯卡但我們不能照遊戲廠商需求來設計我們給他們更好的顯卡這樣他們才能設計更好的遊戲我們可以創造需求同樣只要對先進算法有需求算力就會存在顯卡大戰所有的套路我們會再重新走一次而AI這個路線也是如此因為Scaling Law已經講明算力無窮止盡造就無窮智能就算今天LLM技術落伍只要有需求先進的算法就會需要算力 Scaling Law就是摩爾定律 CPU當年無限開發計算能力有了軟體業顯卡無限開發算力有了電動產業這也是為何Eric Schmidt說政府用算力10的26次方flops當作監管條件其他政治上的風險 https://www.youtube.com/watch?v=UczALD7ZZDU

Data Center->水土地電力當地居民抗議 -- 最近韭菜力有點高 QnQ 你們買股請用閒錢買....不然就會像我一樣要去賣玉蘭花 -- 註1:Deep Speed是微軟一個重大的軟體加速設計這讓我想起Bill 之前說的 https://www.youtube.com/watch?v=jpfC7rzoX2A

"Microsoft putting tens of billions of dollars,into not just the back-end capacitiy, "but re-engineering their application" 註2:Gen AI/LLM 把所有資訊都是用token計價文字上來說2~3token等於一個英文word You miss 100% of the shots you don't take 這句話大概等於11 tokens 在影像的話如果以一張512x512像素來說有一個不嚴謹的公式 total tokens = 85 + 170 * n, (n=512 在這邊) 註3: 謠言果家的私有雲會用狗家TPU 但Inference結果現在看來我很好奇果家會願意放棄這樣香的NV Inference架構用狗家TPU 註4: 亞痲已經開始大量用RAG+LLM 作為改善shopping 和查詢物品的使用者體驗如果為真我們會看到亞痲跟軟家大量在AI Infra 軟體上改進等 ※ 引述《enouch777 (雷)》之銘言： : 原文標題：稱霸 AI 推理性能，NVIDIA B200 晶片海放 AMD MI300X : ※請勿刪減原文標題 : 原文連結： : https://bit.ly/4dIpmfq : ※網址超過一行過長請用縮網址工具 : 發布時間： : September 2, 2024 by 陳冠榮 : ※請以原文網頁/報紙之發布時間為準 : 記者署名：September 2, 2024 by 陳冠榮 : ※原文無記載者得留空 : 原文內容： : 由產業人士和學術界組成的開放工程聯盟（MLCommons）自 2018 年推出 MLPerf 產業基準 : ，是衡量機器學習性能、提高科技透明度的常見指標。隨著科技大廠針對 MLPerf Inferenc : e v4.1 提出測試資料，尤其 NVIDIA 下一代 Blackwell GPU 首次參與測試，讓業界看出各 : 家晶片性能提升至什麼程度。 : MLPerf Inference v 4.1 測試結果有一系列值得關注的新增內容，像是 MLPerf 首次引進 : MoE（Mixture of Experts Models，混合專家模型）性能評估，特別採用開源 Mixtral 8× : 7B 模型。這一輪基準測試更展示一些令業界關注的晶片和系統，有些還是首次公開測試結 : 果，比方說 AMD MI300X、Google TPU v6e（Trillium）、英特爾 Granite Rapids、Unteth : er AI speedAI 240 等，還有最受市場矚目的 NVIDIA B200。 : 雖然 Blackwell GPU 交付到客戶手中還需要幾個月時間，但 MLPerf Inference 4.1 測試 : 結果可讓客戶一窺即將到來的強大性能。Blackwell GPU 由於使用 NVIDIA 第二代 Transfo : rmer 引擎和 FP4 Tensor 核心，處理 MLPerf 設定的 Llama 2 70B 模型，首次測試結果顯 : 示性能較自家 Hopper 架構的 H100 高出 4 倍之多。 : 而在單一 B200、H200 及競爭對手 MI300X 的比較，MLPerf Inference v 4.1 測試結果運 : 用 Llama 2 70B 計算每秒生成 token 數，可看出 B200 的表現遙遙領先 H200 和 MI300X : ，性能平均達到 H200 約 2.5 倍，更是 MI300X 的 4 倍左右。可見主流的 H200 明顯勝過 : MI300X，換成下一代 B200 更是大勝。 : 值得關注的是，MI300X 規格如電晶體、HBM 等比起 H200 複雜，封裝複雜度更高，可推測 : AMD 這款 AI 晶片成本高昂，卻要賣得更便宜才能與 NVIDIA 競爭。信昕產研從這一輪 MLP : erf 測試結果分析，MI300X 合理價格可能要比目前 H200 低約 30%。 : 換個角度來看，市場可能對於 NVIDIA 產品毛利高有些意見，一旦性能強大的 NVIDIA GPU : 價格再低一點，恐無對手與之競爭。 : 心得/評論： : https://i.imgur.com/DhaD9B1.jpeg

: 蘇媽24年初之前不是號稱贏黃的H100 : 結果只在伯仲之間，還小輸 : 現在看起來黃的B200提升驚人。雖然現在晚一點才會來。但看來護城河已經建好了 : ※必需填寫滿30正體中文字，無意義者板規處分 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.4.211.194 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1725303899.A.3FA.html ※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 03:10:16

推 FirePopcorn : 推 09/03 03:14

→ Justisaac : 漲知識給推~ 09/03 03:18

→ Justisaac : 雖然我覺得Intc連半個都稱不上XD 09/03 03:18

推 stuppi : 感謝LD老大分享~ 09/03 03:20

推 Justisaac : 居然沒推到，補一下。 09/03 03:22

推 Haerin520 : 推已經歐印NVDL了誰來69樓救我 09/03 03:28

推 pornpig32 : Nv能否持續領先 09/03 03:30

推 ETTom : 推長知識了 09/03 03:49

噓 a000000000 : 我說過惹老黃這逼系列地位類似哀鳳4 09/03 03:50

→ a000000000 : 出來94掃場他把能想到的花招都用上惹 09/03 03:50

→ a000000000 : 下一代的問題4會變成哀鳳五還哀鳳六很難說 09/03 03:50

推 hyuying : 哇謝LD！希望我也能Learning到飛黃騰達 09/03 03:50

→ a000000000 : 沒新招就挨奉五有新招就挨鳳六 09/03 03:51

※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 04:23:28

→ ookimoo : ww3之後美國會徹底衰弱，中間會一堆國家沒有電！ 09/03 04:41

推 sean667cd : 感謝 LD大分享！ 09/03 04:44

推 waitrop : 我該歐印nvdl嗎 09/03 04:49

推 MyDice : 感謝大大分享 09/03 06:12

推 ejnfu : 所以結論是all in NVDA對吧 09/03 06:13

推 pacino : 推 NVDA 09/03 06:23

推 TIPPK : 感謝分享 09/03 06:31

推 zoze : 相信老黃財富自由 09/03 06:51

推 william7713 : 台灣一直歡迎資料中心來蓋XDD 不知道在想啥 09/03 06:54

推 jerrychuang : 99MU 09/03 06:55

推 spike1215 : 恐懼來自於算力不足，對吧。 09/03 06:56

推 peapriayod : 專業推 09/03 06:58

推 lusifa2007 : 推老黃就是強 09/03 07:01

推 darlost : 推一個 09/03 07:06

推 fdkevin : 結論歐印NVDA 09/03 07:11

噓 askaa : 當大家都要買nvdl 跟全部人都在拉抬目標價 09/03 07:38

→ askaa : 你就知道該如何處置手上的股票了 09/03 07:38

推 Chilloutt : 以token 練丹是可怕的商業模式，東西被重新估價 09/03 07:47

推 ppuuppu : 哇，一早看到L大的信心加持感恩 09/03 07:54

推 Lipraxde : Inference server 真正的需求等手機普遍都有能跑 L 09/03 07:57

→ Lipraxde : LM 再看吧？雖然 edge 端能跑的 model 比 GPT-4o 09/03 07:57

→ Lipraxde : 廢，但一般使用需求其實也用不上多強的 LLM 09/03 07:57

推 ajkofqq : 好 09/03 08:03

推 darkangel119: 感謝專家分析與分享 09/03 08:03

推 f860506 : 推 09/03 08:08

推 aegis43210 : AI推論接下來各大CSP會用博通設計的ASIC來想辦法取 09/03 08:09

→ aegis43210 : 代，到時看才知道鹿死誰手 09/03 08:09

推 utn875 : 感謝提供基礎知識 09/03 08:17

推 NicholasTse3: all in NVDL 一波退休！ 09/03 08:19

推 sdbb : 99nvdl 09/03 08:39

推 sdbb : https://i.imgur.com/HltGuLS.jpg 09/03 08:42

推 Samurai : ASIC取代別鬧惹，關鍵應該是明年的chatgpt5 ，LLM 09/03 08:42

→ Samurai : 進化才是終端市場爆發的時候 09/03 08:42

推 NotForever : 感謝分享 09/03 08:43

推 atpx : 推分享 09/03 09:01

推 zhi5566 : 推 09/03 09:15

推 darkangel119: 蝦? 用 ASIC? 想太多了吧 09/03 09:32

→ bnn : 嚇你甩你磨你 09/03 09:45

→ cyshowen : B系列GPU已經就 800mm2吃到光罩極限，要再增加電晶 09/03 09:57

→ cyshowen : 體就只能靠製程。兩顆大晶片進CoWoS-L封裝成B200又 09/03 09:57

→ cyshowen : 因熱膨脹係數delay，至於老黃說什麼修光罩改善良率 09/03 09:57

→ cyshowen : 看起來是在解Critical Path積熱，但有沒有效可以繼 09/03 09:57

→ cyshowen : 續觀望。 09/03 09:57

→ cyshowen : 老黃要變下一代，GG CoWoS下一代(2027)可能有機會 09/03 09:59

→ cyshowen : ，熱膨脹問題還是跑不掉 09/03 09:59

推 ups : 專業推 09/03 10:31

推 strlen : 樓上真好心幫輝達裡幾百萬千萬年薪工程師們擔心 09/03 10:49

推 SSglamr : 老黃救我 09/03 11:19

推 aegis43210 : AI推論當然用ASIC，用GPGPU很耗電好嗎? 09/03 11:26

→ aegis43210 : 現在各家的NPU則是一種DSP，算是過渡方案 09/03 11:27

推 arcysaint : 已歐印 09/03 13:01

推 dragonjj : 謝謝分享，果家用狗家的我相信只先分散風險總不能 09/03 19:20

→ dragonjj : 單靠一家，能用大叢集的就兩家目前來看 09/03 19:20

推 grayeric : 今晚又電梯向下了 09/03 22:39

→ visadanny : 電梯向下跟老黃也沒關係啊總經數據開這樣大家一起 09/04 02:03

→ visadanny : 爆 09/04 02:03

💰 股票 Stock 版：熱門文章

💰 股票 Stock 版：更多文章