四虎影视永久在线观看-四虎影视永久在线精品-四虎影视永久在线精品免费-四虎影视永久在线精品免费播放-四虎影视院-四虎影视在线

歡迎來到 潛能詞典網(wǎng) , 一個專業(yè)的潛能知識學(xué)習(xí)網(wǎng)站!

加入收藏

您所在的位置:首頁 > 資訊 > 最新資訊

最新資訊

AI黑馬Groq顛覆英偉達?LPU性能與成本解讀

分類: 最新資訊 潛能詞典 編輯 : 潛能 發(fā)布 : 02-23

閱讀 :241

Groq 是一家技術(shù)公司,由 Jonathan Ross 在 2016 年創(chuàng)立。Ross 曾是 Google 第一個張量處理單元(TPU)的創(chuàng)造者,他的創(chuàng)立理念源于一個觀點:芯片設(shè)計應(yīng)從軟件定義網(wǎng)絡(luò)(SDN)中吸取靈感。2024 年 2 月 13 日,Groq 在 ArtificialAnalysis.ai 最新的 LLM 基準(zhǔn)測試中明顯獲勝,Groq 在延遲與吞吐量等關(guān)鍵性能指標(biāo)上擊敗了八名參與者, Groq 處理吞吐量達到其他推理服務(wù)的 4 倍,同時收費還不到 Mistral 自己的 1/3。ArtificialAnalysis.ai 聯(lián)合創(chuàng)始人 M icah Hill-Smith 表示, Groq 代表了可用速度的 一步變化,為 LLM 提供了新的用例。Groq 創(chuàng)始人&CEO Jonathan Ross 表示,Groq 的存在是為了消除“貧富差距”,并幫助 AI 社區(qū)中的每個人蓬勃發(fā)展。此外,他還表示,推理對于實現(xiàn)這一目標(biāo)至關(guān)重要,因為速度是將開發(fā)人員的想法轉(zhuǎn)化為業(yè)務(wù)解決方案和改變生活的應(yīng)用程序的關(guān)鍵。PS:關(guān)于 LLM,有新 Newin近期同步分享了 以及 歡迎訂閱。關(guān)于 Groq 的核心團隊、合作伙伴以及投資方如下:核心團隊合作伙伴投資方Groq 最新一輪 3 億美元 C 輪融資追溯至 2021 年 4 月,而不是 ChatGPT 發(fā)布后的一年多,這一輪投資者包括老虎、D1 以及 Alumni Ventures。關(guān)于 AI 早期市場融資,有新 Newin近期同步分享了歡迎訂閱。關(guān)于 Groq 的 LPUGroq 創(chuàng)新的核心在于其 LPU,旨在以前所未有的速度加速 AI 模型,包括 ChatGPT 等語言模型。LPU 推理引擎(LPU 代表語言處理單元?)是一種新型的端到端處理單元系統(tǒng),可為 具有順序組件的計算密集型應(yīng)用程序提供最快的推理,例如 AI 語言應(yīng)用程序 (LLM) )。LPU 旨在克服 LLM 的兩個瓶頸:計算密度和內(nèi)存帶寬。就 LLM 而言,LPU 比 GPU 和 CPU 具有更大的計算能力。這減少了每個單詞的計算時間,從而可以更快地生成文本序列。此外,消除外部內(nèi)存瓶頸使 LPU 推理引擎能夠在 LLM 上提供比 GPU 好幾個數(shù)量級的性能。與利用高帶寬內(nèi)存 (HBM) 的 GPU 不同,Groq 的 LPU 利用 SRAM 進行數(shù)據(jù)處理,從而顯著降低能耗并提高效率。GroqChip 的獨特架構(gòu)與其時間指令集相結(jié)合,可實現(xiàn)自然語言和其他順序數(shù)據(jù)的理想順序處理。根據(jù) Groq,開發(fā)者使用起來的最快方法如下:GroqCloud: 請求 API 訪問權(quán)限 以在基于令牌的定價模型中運行 LLM 應(yīng)用程序Groq 編譯器:編譯當(dāng)前應(yīng)用程序以查看詳細的性能、延遲和功耗指標(biāo)。通過我們的客戶門戶請求訪問權(quán)限。此外,開發(fā)者也可向 Groq 直接購買硬件。根據(jù)合作伙伴 Bittware 介紹,GroqChip 獨立芯片是一款從頭開始的可擴展處理器,以加速AI、ML和HPC工作負載,該架構(gòu)比GPU簡單得多,而且是以軟件為先的設(shè)計,使其更容易編程,并以較低的延遲提供可預(yù)測的性能。在軟件定義網(wǎng)絡(luò)中,通用硬件配合軟件層來處理路由的復(fù)雜性,避免了使用專門的硬件。 這一理念也體現(xiàn)在 Groq 的技術(shù)和其論文《用于大規(guī)模機器學(xué)習(xí)的軟件定義張量流多處理器》中。Groq 采用了一種從編譯器開始的方法,編譯器將代碼轉(zhuǎn)換為芯片能理解的機器語言。 其目標(biāo)是將機器學(xué)習(xí)算法簡化,使之能在極其簡單的處理器上運行,同時運行速度快且不會引發(fā)現(xiàn)代處理器中常見的昂貴內(nèi)存調(diào)用和預(yù)測失誤。Groq 的芯片區(qū)別于傳統(tǒng)使用高帶寬內(nèi)存(HBM)或動態(tài)隨機存取內(nèi)存(DRAM)的設(shè)計。這些內(nèi)存類型需要定期刷新,引入了延遲和數(shù)據(jù)位置的不確定性。相反,Groq 使用靜態(tài)隨機存取存儲器(SRAM),這種存儲方式在雙穩(wěn)態(tài)鎖存電路中穩(wěn)定存儲數(shù)據(jù),避免了DRAM 和 HBM 所依賴的晶體管/電容器結(jié)構(gòu),這一設(shè)計使得 Groq 能夠準(zhǔn)確知道任何特定時刻數(shù)據(jù)的位置,允許其編譯器預(yù)先定義內(nèi)存調(diào)用,通過相對簡單的架構(gòu)實現(xiàn)快速計算。Groq 的技術(shù)在運行基于 Transformer 的模型(如 GPT-4)上表現(xiàn)出色,因為這類計算具有高度確定性。Groq 的系統(tǒng)特別適合序列操作,如基于 Token 的生成,每個新 Token 的生成依賴于前一個,這樣的串行操作使得計算速度成為優(yōu)勢。Groq 的創(chuàng)新不僅提高了計算效率,還可能改變與 AI 的互動方式。如其創(chuàng)始人所言,隨著 AI 變得越來越類似于人類,與之交互的微小不便會變得更加明顯和限制性。Groq 提供了一種通過高效、確定性的計算來保持交互幻覺的方法,這在實時交互和可能的實時視頻生成方面開辟了新的可能性。Groq 的芯片采用完全確定性的 VLIW(非常長指令字)架構(gòu),沒有緩沖區(qū),并且在 Global Foundries 的 14nm 工藝節(jié)點上達到了約 725mm^2 的芯片尺寸。它沒有外部內(nèi)存,并且在處理過程中將權(quán)重、KVCache 和激活等全部保留在芯片上。因為每個芯片只有 230 MB 的 SRAM,實際上沒有有用的模型能夠完全適應(yīng)單個芯片。相反,它們必須使用許多芯片來適應(yīng)模型,并將它們網(wǎng)絡(luò)化連接起來。關(guān)于 Groq 的性能與成本Groq 在單個序列上擁有真正驚人的性能優(yōu)勢。這可能使得如思維鏈這樣的技術(shù)在現(xiàn)實世界中更加可用。此外,隨著 AI 系統(tǒng)變得自主,LLMs 的輸出速度需要更高,以適應(yīng)如代理程序之類的應(yīng)用。同樣,代碼生成也需要顯著降低個 token 輸出延遲。實時 Sora 風(fēng)格模型可能是娛樂領(lǐng)域的一個驚人途徑。如果延遲過高,這些服務(wù)甚至可能對最終市場客戶來說既不可行也不可用。這導(dǎo)致了關(guān)于 Groq 的硬件和推理服務(wù)將為AI行業(yè)帶來革命性影響的巨大炒作。雖然對于某些市場和應(yīng)用來說,它確實是一個游戲規(guī)則改變者,但速度只是方程的一部分。供應(yīng)鏈多元化是另一個對 Groq 有利的因素。他們的芯片完全在美國制造和封裝。相比之下, Nvidia 、Google、AMD 和其他 AI 芯片需要從韓國進口內(nèi)存,以及從臺灣進口芯片/先進封裝。這些對 Groq 來說都是正面因素,但評估硬件是否具有革命性的主要公式是性能/總擁有成本。這是谷歌深刻理解的東西。AI 時代的黎明已經(jīng)到來,至關(guān)重要的是要理解,由AI驅(qū)動的軟件的成本結(jié)構(gòu)與傳統(tǒng)軟件大相徑庭。芯片微架構(gòu)和系統(tǒng)架構(gòu)在開發(fā)和可擴展性這些創(chuàng)新新形式的軟件中扮演著至關(guān)重要的角色。AI 軟件運行的硬件 Infra 對 Capex(資本性支出)和Opex(運營性支出)以及隨后的毛利潤有著明顯更大的影響,與之前開發(fā)者成本相對較大的軟件世代相比,這種影響更為顯著。因此,將相當(dāng)大的注意力投入到優(yōu)化你的 AI Infra 上,以能夠部署 AI 軟件,變得更加關(guān)鍵。在 Infra 上具有優(yōu)勢的公司,也將在部署和擴展 AI App 方面具有優(yōu)勢。對于開發(fā)人員和 IT 團隊來說,Groq 的 LPU 和軟件架構(gòu)帶來了三個主要優(yōu)勢:快速洞察: Groq 產(chǎn)品的高性能和低延遲可幫助數(shù)據(jù)科學(xué)家更快地構(gòu)建和迭代機器學(xué)習(xí)模型。更快的生產(chǎn)時間:Groq 的編譯器和軟件環(huán)境簡化了部署,從而可以更快地進行實驗。與生產(chǎn)模型交互的能力加快了開發(fā)周期。面向未來的基礎(chǔ)設(shè)施:Groq 的軟件定義架構(gòu)、先進網(wǎng)絡(luò)和可擴展平臺為 AI 增長提供了經(jīng)濟高效的基礎(chǔ)。隨著需求的變化,開發(fā)人員可以避免鎖定或瓶頸。創(chuàng)始人 Ross 還表示,Groq LPU 推理引擎已經(jīng)證明,它比 GPU 更好、更快、更實惠,可用于通用 AI 語言推理。在 Mixtral 模型的情況下, Groq 不得不連接 8 個機架,每個機架有 9 臺服務(wù)器,每臺服務(wù)器有 8 個芯片。這總共 576 個芯片組成了推理單元,用以服務(wù) Mixtral 模型。相比之下, Nvidia 的單個 H100 就能在低批量大小下適配模型,并且兩個芯片就有足夠的內(nèi)存支持大批量大小。Groq 芯片的晶圓成本可能低于每晶圓 6000 美元。與此相比, Nvidia 的 H100 在 TSMC 的 5nm 定制變體 4N 上的芯片尺寸為 814mm^2,這些晶圓的成本接近每晶圓 16000 美元。另一方面, Groq 的架構(gòu)對于實施產(chǎn)量收割似乎不那么可行,相比之下, Nvidia 由于在大多數(shù) H100 SKU 中禁用了約 15% 的芯片面積,擁有極高的參數(shù)產(chǎn)量。此外, Nvidia 為每顆 H100 芯片從 SK Hynix 購買 80 GB 的 HBM,成本約為 1150 美元。Nvidia 還必須支付TSMC 的 CoWoS 成本并承擔(dān)產(chǎn)量損失,而 Groq 沒有任何芯片外內(nèi)存。Groq 的芯片原材料成本明顯更低。Groq 還是一家初創(chuàng)公司,因此它們對芯片的低批量/相對固定成本較高,這包括必須支付 Marvell 一大筆定制 ASIC 服務(wù)的利潤。這張表格展示了三種部署,表格中展示了 Groq 輸出每個 token 的硅材料成本方面相對于 Nvidia 系統(tǒng)有一個芯片架構(gòu)上的優(yōu)勢。8xA100 可以服務(wù) Mixtral 并實現(xiàn)每用戶約 220 個 token 每秒的吞吐量,而 8xH100 可以在沒有推測性解碼的情況下達到每用戶約 280個 token 每秒。通過推測性解碼,8xH100 推理單元可以實現(xiàn)接近每用戶 420 個 token 每秒的吞吐量。雖然吞吐量可能超過這個數(shù)字,但在 MoE(專家混合)模型上實施推測性解碼是具有挑戰(zhàn)性的。由于經(jīng)濟性非常差,目前還不存在以延遲優(yōu)化的 API 服務(wù)。API 提供商目前看不到為更低的延遲收取 10 倍以上費用的市場。一旦代理和其他極低延遲任務(wù)變得更受歡迎,基于 GPU 的 API 提供商可能會啟動延遲優(yōu)化的 API ,與他們當(dāng)前的吞吐量優(yōu)化的 API 并行。一旦 Groq 下周實施他們的批處理系統(tǒng),即使是采用推測性解碼的延遲優(yōu)化 Nvidia 系統(tǒng)在吞吐量和成本上也遠遠落后于沒有推測性解碼的 Groq 。此外, Groq 使用的是較舊的 14nm 工藝技術(shù),并向 Marvell 支付了可觀的芯片利潤。如果 Groq 獲得更多資金并且能夠提升他們下一代 4nm 芯片的生產(chǎn),預(yù)計在 2025 年下半年推出,經(jīng)濟情況可能開始發(fā)生顯著變化。值得注意的是, Nvidia 遠非坐以待斃,我們認(rèn)為他們將在不到一個月的時間內(nèi)宣布他們的下一代 B100。在吞吐量優(yōu)化系統(tǒng)中,經(jīng)濟情況顯著改變。Nvidia 系統(tǒng)在BOM基礎(chǔ)上每美元性能獲得一個數(shù)量級的提升,但每用戶吞吐量較低。對于吞吐量優(yōu)化場景, Groq 在架構(gòu)上完全不具備競爭力。此外,創(chuàng)始人 Ross 還強調(diào)了 Groq 在美國制造的承諾,并指出 Groq 的芯片由 Global Foundries 在美國制造。在加拿大封裝,并在加利福尼亞州組裝,在地緣政治壓力下的技術(shù)供應(yīng)鏈中,擁有國內(nèi)產(chǎn)能具有戰(zhàn)略優(yōu)勢。對于國防和受監(jiān)管行業(yè),本地制造還可以簡化合規(guī)性。“Tokenomics”(代幣經(jīng)濟學(xué))看起來非常不同。Nvidia 的 GPU 基板擁有巨大的毛利潤。此外,對服務(wù)器收取的 350,000 美元價格,遠高于超大規(guī)模計算提供商的 H100 服務(wù)器成本,還包括了顯著的內(nèi)存成本、8 個 InfiniBand NICs 的總帶寬為 3.2 Tbps 以及在 Nvidia 利潤之上疊加的不錯的 OEM 利潤。對于 Groq ,正在估算系統(tǒng)成本,并考慮到芯片、封裝、網(wǎng)絡(luò)、 CPU 、內(nèi)存的細節(jié),同時假設(shè)較低的整體 ODM 利潤。沒有包括 Groq 銷售硬件所收取的利潤,但這也是 Groq 的成本與推理 API 提供商的成本的公平比較,因為兩者都在提供相同的產(chǎn)品/模型。值得注意的是,8 個 Nvidia GPU 只需要 2 個 CPU ,但 Groq 的 576 芯片系統(tǒng)目前有 144 個 CPU 和 144 TB 的 RAM。Reference:https://groq.com/https://wow.groq.com/news_press/groq-lpu-inference-engine-leads-in-first-independent-llm-benchmark/https://dzone.com/articles/ai-real-how-groq-simplifies-machine-learningOn the business, strategy, and impact of technology. Sora, Groq, and Virtual Reality,Stratechery;Groq Inference Tokenomics,Semianalysis;P S:來自 Meta Llama、OpenAI、Nvidia 以及 Mistral 的 AI 研究專家以及初創(chuàng)公司創(chuàng)始人 & CXO 們也將在 5 月 29 日~ 31 日,參加由 GPTDao 主辦,位于舊金山的 “GenAI Summit 2024” 峰會,作為本次活動的合作伙伴,有新Newin為本號讀者爭取了早鳥福利:GenAI Summit 2024 將在 Palace of Fine Arts 舉行,場地規(guī)模超 200,000 平方英尺的沉浸式體驗,包括 300+ AI 展商、300+ VC投資人、200+ 行業(yè)專家,以及來自 30,000+ 的參會者。本次活動嘉賓陣容強大,不限于硅谷大廠科學(xué)家,還有知名 AI 初創(chuàng)公司創(chuàng)始人&CXO:OpenAI 將在峰會上有核心展區(qū),你將有機會近距離握手 OpenAI 明星團隊。 此外,峰會上 有很多講中文的華裔嘉賓,以及名校同學(xué)做志愿者和翻譯,能夠深入 和長期溝通,不同與以往老外峰會中 走馬觀花的體驗。此外,VIP 還將有機會與頂尖科學(xué)家、投資人面對面交流,給馬斯克直接匯報工作的年輕大牛嘉賓 Dr Wu 也將在峰會上首次對外亮相,微軟冠名很快要官宣,票價很快要上漲了。有新Newin聯(lián)合主辦方GPTDAO為大家爭取到早鳥優(yōu)惠:三日早鳥價 $399下方掃碼并輸入專屬優(yōu)惠碼NEWIN50減 $50 使用:單日早鳥價 $149(任一天)下方掃碼并輸入專屬優(yōu)惠碼NEWIN20減 $20 使用:大展臺(3mx3m)早鳥價 $9999小展臺(2mx2m)早鳥價 $6999Newin 行業(yè)交流群最新資訊創(chuàng)業(yè)手冊出海活動& &
主站蜘蛛池模板: 插插射射 | 婷婷网五月天天综合天天爱 | 玖玖在线 | 色女人综合 | 992人人草| 久久天天躁狠狠躁夜夜躁 | 99热这| 久久中文视频 | 成人久久伊人精品伊人 | 国产做受视频激情播放 | 九九热免费视频 | 精品久久中文字幕 | 久久精品免费全国观看国产 | 久青草视频 | 日韩小视频在线播放 | 久久久这里有精品999 | 国产精品嫩草研究所永久网址 | 这里只有精品视频在线 | 最新国产福利在线 | 黄色片网站观看 | 美女做羞羞 | 成人毛片免费观看视频大全 | 日韩不卡一级毛片免费 | 国产全黄一级毛片 | 香港一级a毛片在线播放 | 久久久精品久久 | 久久久久国产成人精品 | 91亚洲国产成人久久精品网站 | 一区二区三区日韩 | 激情综合五月亚洲婷婷 | 国产成人久久精品一区二区三区 | 国产精品乱码免费一区二区 | 五月开心六月伊人色婷婷 | 免费aⅴ在线 | 国内久久久久久久久久 | 亚色91 | 97av视频 | 天天看天天干 | 国产精品欧美久久久久天天影视 | 神马不卡 | 亚洲国产成人私人影院 |