來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自「eejournal」,作者:Kevin Morris,謝謝。 英特爾在早前宣布,他們已開始將其第一批新的Agilex FPGA交付給搶先體驗的客戶。這使得最大的兩家FPGA供應(yīng)商之間競爭進入到了“正面交鋒”階段。Xilinx于6月份交付了他們的第一款“ Versal ACAP”FPGA,因此,在經(jīng)歷了一場漫長而有爭議的“誰能首先交付?”之戰(zhàn)之后。事實證明,這兩家競爭公司都可以在大約兩個月內(nèi),開始交付其可用來與對手對標(biāo)的FPGA產(chǎn)品線。這意味著,與其他憑借第一時間引入先進節(jié)點來提升性能的競爭不同,這兩家公司都沒有足夠的時間去利用一種新的、更先進的技術(shù)來贏得設(shè)計上的勝利。 不過,這次競爭的領(lǐng)域擴大了,新玩家Achronix聲稱他們將在今年年底之前交付其新型Speedster 7t FPGA的首批樣品。對于開發(fā)團隊而言,這意味著到今年年底,將有三款完全不同的高端FPGA產(chǎn)品可供選擇——所有這些產(chǎn)品都采用類似的工藝技術(shù),并且均具有獨特的功能。 本篇文章是比較這三家供應(yīng)商的新高端FPGA系列的多部分系列中的第一部分。我們將研究底層的工藝,F(xiàn)PGA邏輯組織(LUT)本身,用于加速處理和聯(lián)網(wǎng)的強化資源,存儲器架構(gòu),芯片/封裝/定制架構(gòu),I/O資源,設(shè)計工具策略,每個產(chǎn)品的獨特和新穎的特性和功能,以及營銷策略。如果您是可以從大量FLOPS,瘋狂的帶寬或是從設(shè)計過的一些有趣,功能強大的半導(dǎo)體器件中獲得樂趣的人,那么,這對你來說將是一次令人興奮的旅行。 注意事項–英特爾和Achronix都參與其中,并提供了本文的信息。Xilinx沒有回應(yīng)我們對信息的請求。 這一次,高端FPGA的霸主地位有所改變。過去,高端FPGA最大的市場是在網(wǎng)絡(luò)方面,市場份額的變化也是如此,這主要取決于誰可以為部署最新一輪的有線和無線網(wǎng)絡(luò)客戶的產(chǎn)品提供最豐富的設(shè)計,,誰就可以取得較大的市場份額。然而,5G推出的時機已經(jīng)改變了這一動態(tài)。在當(dāng)前的FPGA技術(shù)浪潮到來之前,5G就已經(jīng)開始加速擴展。因此,第一輪5G的主干網(wǎng)是建立在上一代可編程邏輯上的。這些器件將融入一個已經(jīng)很強大的5G生態(tài)系統(tǒng),因此,我們無法確定5G的徹底革命和新一代FPGA的誕生之間是否保持了一致。這些FPGA的設(shè)計已經(jīng)充分理解了5G的機制。但是,不要低估FPGA對5G的重要性,或者5G對FPGA市場的重要性。今天,當(dāng)你使用手機時,你的通話有99%的可能是通過FPGA進行的。有了5G,F(xiàn)PGA的影響會更大。 隨著數(shù)據(jù)中心加速(主要是針對AI工作負(fù)載)這一新興市場的快速擴展,這一現(xiàn)象引起了人們的興趣。據(jù)估計,人工智能加速市場將在未來幾年中飛速發(fā)展,因而這三家供應(yīng)商都將以其令人印象深刻的性價比和更高的能效來爭奪這些設(shè)備的大部分市場份額,并聲稱他們提供的解決方案可以一直延伸到邊緣/端側(cè)。這些供應(yīng)商中的每一個都非常清楚地意識到占領(lǐng)這些AI加速卡插槽是當(dāng)務(wù)之急,并且他們都圍繞這個想法設(shè)計了新芯片。 讓我們看看所有這些因素吧? 從底層工藝技術(shù)來看,Xilinx和Achronix FPGA系列在基于TSMC 7nm而設(shè)計,而Intel Agilex則采用了性能相近的Intel 10nm工藝。不要被7/10命名差異所迷惑。不要被7/10的命名法差異所混淆。我們很早以前就曾指出,半導(dǎo)體行業(yè)的營銷團體根據(jù)市場上聽起來不錯的東西來命名節(jié)點,而不是從晶體管本身的任何可識別的特征中推導(dǎo)出它們。據(jù)我們估計,TSMC的7nm和Intel10nm是大致相當(dāng)?shù)墓に?,使用這兩種工藝的廠商基本一致。這意味著英特爾在工藝技術(shù)方面長期保持的領(lǐng)先地位似乎已經(jīng)消失,不過,當(dāng)我們接近摩爾定律的瓶頸時,硅加工領(lǐng)域的競爭升級是不可避免的。 當(dāng)推進到最新的半導(dǎo)體工藝節(jié)點,這三個供應(yīng)商都獲得了適度的推動。然而這種推進已不可能達到摩爾定律的歷史標(biāo)準(zhǔn),因為在過去幾個工藝節(jié)點的新流程更新所帶來的收益增量一直在穩(wěn)步下降。每個人從FinFET技術(shù)問世中都獲得了一次臨時性的推動,現(xiàn)在,隨著摩爾定律即將在經(jīng)濟層面上終結(jié),我們可能會發(fā)現(xiàn)邊際收益遞減趨勢將一直延續(xù)。 在過去,隨著晶體管尺寸的減小,每個新工藝節(jié)點都讓晶體管的密度大量提升,并獲得更好的性能和更低的功耗。現(xiàn)在,供應(yīng)商必須在這三者之間進行權(quán)衡,并且即使在他們偏愛的指標(biāo)上,通常也只能得到較小的回報。同時,轉(zhuǎn)移到新工藝節(jié)點的non-recurring費用繼續(xù)呈指數(shù)級增長。這意味著FPGA公司所承擔(dān)的風(fēng)險急劇上升,這是因為為了保持競爭力,他們需要不斷投資才能獲取不斷減少的收益。這也意味著我們正在進入一個新時代,F(xiàn)PGA本身的架構(gòu)和功能、FPGA工具以及這三家公司的營銷策略將成為影響收益的關(guān)鍵因素,而不是誰將率先使用新的制程工藝。 考慮到工藝技術(shù)實際上是一種洗禮,讓我們看一下每個供應(yīng)商產(chǎn)品的功能和特性。從最基本的FPGA功能– LUT結(jié)構(gòu)開始。我們經(jīng)常感嘆每個公司對LUT的計算都不一樣,而且這個游戲每一代都變得更加復(fù)雜。Xilinx和Achronix當(dāng)前使用的是6輸入LUT,而Intel的ALM本質(zhì)上是8輸入LUT。廠商或多或少地同意我們可以使用2.2 LUT4s per LUT6,,和2.99 LUT4s per LUT8將不同的LUT轉(zhuǎn)換為等價的4輸入LUT。 根據(jù)這方法一計算,Achronix Speedster 7T系列包括從363K到2.6M LUT6(相當(dāng)于800K到5.76M的等效LUT4)領(lǐng)先業(yè)界,Intel Agilex系列包括132K到912K 的ALM(相當(dāng)于395K到2.7M的等效LUT4),Xilinx的Versal系列產(chǎn)品包含了約246K到984K CLB(可換算成541K到2.2M的等效LUT4)。每個供應(yīng)商都聲稱自己的體系結(jié)構(gòu)優(yōu)越,著重強調(diào)了可以提高某些特定應(yīng)用或配置中的邏輯密度,性能或可布線性的設(shè)計功能。目前,我們尚不清楚任何供應(yīng)商的LUT是否明顯優(yōu)于其他任何供應(yīng)商的LUT。 但是,F(xiàn)PGA可用資源不僅取決于LUT的數(shù)量。還必須考慮以下挑戰(zhàn):被有效使用LUT的百分比(我們將在稍后討論設(shè)計工具時進行討論),以及集成到邏輯模塊中的強化功能的數(shù)量,這些功能允許以最小的方式實現(xiàn)設(shè)計功能LUT結(jié)構(gòu)的參與。根據(jù)您的設(shè)計,您可能會發(fā)現(xiàn)更多內(nèi)容被塞入一個或多個FPGA中,而這些內(nèi)容和LUT數(shù)量無關(guān)。 FPGA“擅長”人工智能推理的主要原因是其可以并行完成大量的算術(shù)運算(主要是各種精度的乘法累加),這要歸功于編織在可編程邏輯結(jié)構(gòu)中的存在大量"DSP塊陣列"。這使得FPGA能夠比傳統(tǒng)的馮·諾依曼結(jié)構(gòu)的處理器更有效地執(zhí)行例如卷積等矩陣運算。 分析對AI推理至關(guān)重要的硬件乘法器,Achronix的可變精度乘法器可實現(xiàn)41K int-8乘法或82K int-4乘法。英特爾Agilex具有2K-17K 18×19乘法器,Xilinx Versal有500-3K“DSP引擎”,大概是“ DSP58 slice”,包括27×24乘法器和新的硬件浮點功能。這種比較肯定是“從蘋果到橙子到芒果”,至于哪種水果更適合您的應(yīng)用,它必須是“由設(shè)計者決定的”。 現(xiàn)在,這三個供應(yīng)商都增強了對浮點乘法的支持。Achronix為他們的DSP塊提供了一個全新的架構(gòu),他們稱之為"機器學(xué)習(xí)處理器"(MLP)。每個MLP包含多達32個乘法器/累加器(MAC)、4-24位整數(shù)模式和各種浮點模式,可支持包括TensorFlow 的Bfloat16格式和塊浮點格式。最重要的是,Achronix MLP將嵌入式存儲器模塊與計算單元緊密耦合,從而使MAC操作能夠以750 MHz的頻率運行,而等待通過FPGA組織訪問存儲器獲取數(shù)據(jù)。 英特爾還使用具有硬件浮點的可變精度DSP模塊(基本上就像它們已經(jīng)提供了多年的功能一樣)。英特爾的浮點支持也許是三者中最廣泛和最成熟的。借助Agilex,他們推出了兩種新的浮點模式,即半精度浮點(FP16)和塊浮點(Bfloat16),并且進行了架構(gòu)調(diào)整,以使其DSP運算更加高效。 Xilinx已將其以前的DSP48 Slice升級到DSP58 ——大概是因為它們現(xiàn)在包括了硬件浮點,并且其乘法器也升級到了27×24。因此,在這一代產(chǎn)品中,另外兩家供應(yīng)商也加入了英特爾的行列,提供支持浮點運算的硬件乘法器。對于Xilinx而言,這是一個逆轉(zhuǎn)。賽靈思此前聲稱,F(xiàn)PGA中實現(xiàn)浮點硬件乘法器不是一個好主意,因為浮點運算主要用于訓(xùn)練,而FPGA則主要針對推理應(yīng)用。 就可用的浮點格式而言,Versal(最多2.1K乘法器)和Agilex(最多8.7K乘法器)都支持FP32格式。這三個系列均支持半精度(FP16)——Versal最多可支持2.1K乘法器,Agilex最多可支持17.1K乘法器,Speedster最多可支持5.1K乘法器。Agilex(最多17.1K乘法器)和Speedster(最多5.1K個)支持Bfloat16。對于FP24格式浮點乘法,Versal和Agilex可能會使用FP32單元,而Speedster則具有高達2.6K的乘法器。Achronix Speedster還支持多達81.9K的塊浮點乘法器。 Xilinx還帶來了一種新的軟件可編程矢量處理器——高達400個1GHz+VLIW-SIMD矢量處理核心陣列,具有增強計算和緊密耦合的內(nèi)存。這為并行化復(fù)雜的向量運算并利用FPGA豐富的計算資源提供了更為簡單的編程模型。總體而言,是在Xilinx的“kitchen sink”競爭策略上選中了“GPU /推理引擎”。稍后我們將詳細討論這一點。 英特爾對Achronix MLP和Xilinx矢量處理器的回應(yīng)是老派的演變。他們指出,Agilex DSP模塊實現(xiàn)了與其他供應(yīng)商的新DSP功能相同的功能??梢岳靡呀⒉⒊浞掷斫獾腇PGA設(shè)計開發(fā)流程,并且不需要客戶在器件的各個體系結(jié)構(gòu)中去劃分他們的設(shè)計。如果您的團隊具有FPGA/RTL設(shè)計專業(yè)知識,這是一件好事。但如果你的應(yīng)用需要由軟件工程師來開發(fā)DSP,Xilinx的軟件可編程方法可能有優(yōu)勢。 除了簡單地計算乘數(shù)外,我們還可以通過查看供應(yīng)商關(guān)于理論性能的聲明來比較這些能力。但有一點需要注意,這些說法被嚴(yán)重夸大了,而且很難精確定義。供應(yīng)商通常通過將芯片上的乘法器數(shù)目乘以這些乘法器的最大工作頻率來得出一個數(shù),得出一個"最多XX TOPS或TFLOPS"的數(shù)字。顯然,現(xiàn)實世界中的設(shè)計不會使用到100%的乘法器,沒有任何一個設(shè)計能夠達到這些乘法器的最大理論時鐘速率,也沒有一個設(shè)計能夠以適當(dāng)?shù)乃俾食掷m(xù)為這些乘法器提供輸入數(shù)據(jù),并且這些乘法運算的精度因供應(yīng)商而異。 如果必須估算的話,我們可以說FPGA在實際設(shè)計中可以實際達到其理論最大值的50-90%。這要比GPU更好,后者被認(rèn)為在現(xiàn)實世界中只能達到其理論最大值的10-20%。 在推測INT8操作的TOPS數(shù)量時,如果我們將其矢量處理器中的133個TOPS包含在內(nèi),則Xilinx Versal以大約171個TOPS位居榜首。12個來自其DSP塊,26個來自其邏輯結(jié)構(gòu)。Speedster緊隨其后,有大約86個TOPS,其中61個來自他們的MLP模塊,25個來自他們的邏輯結(jié)構(gòu)。Agilexint8操作最大值為92個TOPS,其中51個來自DSP塊,41個來自邏輯結(jié)構(gòu)。從Bfloat16格式的TFLOPS來看,Agilex以40個領(lǐng)先,Versal以9個緊隨其后,Speedster以8個墊底。Speedster在塊浮點操作上上獲得了很大的優(yōu)勢,但是,它有123個TFLOPS,其次是Agilex的41個和Versal的15個。 這些數(shù)字均來自公司自己的數(shù)據(jù)表。正如我們所提到的,它們是理論上的最大值,在實際的實際應(yīng)用中是不可能達到的。Achronix宣稱的“可用性”具有一定的價值,因為它們的MLP是獨特的設(shè)計,旨在將可變精度乘法運算維持在模塊本身內(nèi)進行,并以最大時鐘速率運行,而無需數(shù)據(jù)往返于邏輯結(jié)構(gòu)即可完成AI推理中最常見的操作。同樣,Xilinx的矢量處理器體系結(jié)構(gòu)應(yīng)能很好地保持?jǐn)?shù)據(jù)平穩(wěn)地流經(jīng)算術(shù)單元。也就是說,我們還沒有看到基準(zhǔn)或參考設(shè)計以任何有意義的方式來證明這些公司的聲稱。 當(dāng)然,要使用所有這些LUT和乘法器,就需要讓您的設(shè)計實際布局和布線并滿足所選芯片的時序要求。隨著FPGA的發(fā)展,這已成為越來越困難的挑戰(zhàn)。單比他網(wǎng)絡(luò)和邏輯路徑通過有限的路由資源分布在巨大芯片上,這使傳統(tǒng)的時序收斂逐漸變成一場噩夢。用于在同步設(shè)計上實現(xiàn)時序收斂的常規(guī)技術(shù)均遇到了障礙,無法擴展。Xilinx和Achronix都通過添加覆蓋傳統(tǒng)邏輯和路由結(jié)構(gòu)的片上網(wǎng)絡(luò)(NoC)在新一代FPGA中解決了這一問題。NoC從本質(zhì)上改變了游戲規(guī)則,因為整個芯片不再需要在一個巨大的魔術(shù)般的融合中實現(xiàn)時序收斂?,F(xiàn)在,較小的同步塊可以通過NoC傳遞數(shù)據(jù),減輕了傳統(tǒng)路由結(jié)構(gòu)的負(fù)擔(dān),并將巨大的設(shè)計自動化工具需要解決的問題分解為更小、更易于管理的問題。 幾代以前,英特爾已經(jīng)采取了另一種方法來解決這一問題——用稱為“ HyperFlex寄存器”的大量微寄存器鋪平到整個邏輯結(jié)構(gòu)。這些寄存器允許對更長、更復(fù)雜的邏輯路徑進行重新定時和流水線處理,從而使整個設(shè)計實質(zhì)上變得異步。有趣的是,這也是Xilinx和Achronix使用的NoC的效果。每種方法都面臨挑戰(zhàn),因為這兩種方法都會給芯片設(shè)計和我們使用的設(shè)計工具增加大量復(fù)雜性。據(jù)報道,在英特爾的案例中HyperFlex寄存器對邏輯架構(gòu)可以實現(xiàn)的整體速度也有一些負(fù)面影響。英特爾表示,Agilex FPGA中的HyperFlex體系結(jié)構(gòu)是第二代,并且與上一代HyperFlex體系結(jié)構(gòu)相比具有改進和增強,可以提高性能并簡化時序收斂。在Agilex取得進展之后,我們將不得不拭目以待觀察用戶使用后的反應(yīng)。 在采用NoC進行路由的兩家供應(yīng)商,Xilinx和Achronix中,Achronix聲稱通過其二維跨芯片AXI實現(xiàn)實現(xiàn)了最快的NoC。在這一NoC中的每一行或每一列都實現(xiàn)為兩個工作在2 GHz的256位單向AXI通道,也就是在每個方向上可以支持512 Gbps的數(shù)據(jù)流量。Speedster的NoC共有197個節(jié)點,最終形成27 Tbps的總帶寬,減輕了FPGA傳統(tǒng)按位進行路由的資源負(fù)擔(dān)。據(jù)我們所知,Xilinx的Versal NoC性能尚未發(fā)布,但是大約有28個節(jié)點,我們猜測大約是總帶寬是1.5 Tbps。 好吧,本周我們的墨水用完了,但下周我們將繼續(xù)進行下去——看看這些FPGA系列帶來的迷人而靈活的存儲器架構(gòu),每個系列的獨特封裝和定制功能,瘋狂的SerDes IO功能,嵌入式處理子系統(tǒng),設(shè)計工具流程等。 *點擊文末閱讀原文,可閱讀英文原文。 *免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。 今天是《半導(dǎo)體行業(yè)觀察》為您分享的第2125期內(nèi)容,歡迎關(guān)注。 半導(dǎo)體行業(yè)觀察 『半導(dǎo)體第一垂直媒體』 實時 專業(yè) 原創(chuàng) 深度 識別二維碼,回復(fù)下方關(guān)鍵詞,閱讀更多 AI|晶圓|臺積電|射頻|華為|集成電路|TWS耳機|小米 回復(fù) 投稿,看《如何成為“半導(dǎo)體行業(yè)觀察”的一員 》 回復(fù) 搜索,還能輕松找到其他你感興趣的文章! 英文原文 ! |
19款電子扎帶
電路板識別電子標(biāo)簽