淺談AI芯片和架構(gòu)設(shè)計
前言
根據(jù)華為GIV(HuaweiGlobalIndustryVision)預(yù)測,2025年全球新增數(shù)據(jù)量預(yù)計180ZB,將遠(yuǎn)超人類處理能力,95%的數(shù)據(jù)將依賴AI處理。數(shù)據(jù)是企業(yè)重要資產(chǎn),借助人工智能手段進(jìn)行更高效的數(shù)據(jù)分析、處理、決策,提升企業(yè)生產(chǎn)效率和智能化水平,將成為企業(yè)經(jīng)營的核心任務(wù)之一。預(yù)計2025年,全球企業(yè)對AI的采用率將達(dá)86%,AI的崛起將深刻改變企業(yè)的業(yè)務(wù)模式和價值創(chuàng)造模式。
60年來人工智能發(fā)展雖幾起幾落,卻始終在新興ICT信息技術(shù)驅(qū)動下不斷取得新的突破。但近些年,CPU性能未能呈現(xiàn)如摩爾定律預(yù)測的定期翻倍,業(yè)內(nèi)普遍觀點認(rèn)為摩爾定律已經(jīng)失效,能否開發(fā)出具有超高運算能力、符合市場需求的芯片,已成為人工智能領(lǐng)域可持續(xù)發(fā)展的重要因素。
從AlphaGo戰(zhàn)勝李世石說起
2016年谷歌AlphaGo與圍棋世界冠軍李世石上演“世紀(jì)人機(jī)大戰(zhàn)”,將人工智能的關(guān)注度推到了前所未有的高度。人工智能機(jī)器人阿爾法狗以4比1的總比分戰(zhàn)勝職業(yè)九段棋手李世石。此次人機(jī)大戰(zhàn),谷歌DeepMind公司共消耗了1202顆CPU和176顆GPU的計算資源,阿爾法狗的浮點運算能力是1998年IBM深藍(lán)戰(zhàn)勝象棋冠軍時的3萬倍之多。
(圖一:AlphaGo與李世石對弈)
但從能效的角度,AlphaGo真的戰(zhàn)勝人類了嗎?我們從以下方面分析。成年男性每日需要能量大約2550千卡,1千卡(KCAL)=4.184千焦耳(KJ),如果我們把卡路里換算成焦耳大概是1000多萬焦耳,下棋1小時,李世石大概消耗0.7兆焦耳。AlphaGo與李世石下棋用了1202顆CPU,176顆GPU,以1顆CPU100W,1顆GPU200W,1小時,阿爾法狗需要,1瓦時=3600焦耳,共消耗559兆焦耳,這相當(dāng)于李世石用的能耗大約是AlphaGo能耗的八百分之一。
之后,谷歌的DeepMind團(tuán)隊對硬件進(jìn)行改進(jìn),將運算單元從CPU換算成GPU,同樣級別比賽,阿爾法狗消耗雖下降了12倍,但仍然是人類能耗的67倍之多。
因此,我們看到,GPU在性能和效率上,相比CPU有很大的提升,但它仍更適合大規(guī)模分布式訓(xùn)練場景。隨著5G、物聯(lián)網(wǎng)、云和超寬帶信息技術(shù)的發(fā)展,智能將延伸到每一臺智能設(shè)備和終端,包括各種形式邊緣計算,以及IoT物聯(lián)網(wǎng)、消費類智能終端,為了實現(xiàn)極致的用戶體驗,這類設(shè)備往往在最靠近用戶的地方,需要長時間待機(jī),對功耗和空間的約束要是非常高的,顯然GPU無法滿足這類場景的需求。
而人工智能的本質(zhì)是幫助各行各業(yè)提高生產(chǎn)效率,產(chǎn)生社會和商業(yè)價值。若像AlphaGo一樣,依賴龐大且昂貴的計算資源實現(xiàn)一個簡單的場景,實則大材小用。從我們對AI需求的理解來看,人工智能芯片的研發(fā),從一開始就要考慮對全場景智能需求的覆蓋,無論是云、邊緣、還是終端;無論是深度學(xué)習(xí)訓(xùn)練,還是推理,或者兩者兼具,而不是一種芯片包打天下。從人工智能芯片發(fā)展歷程來看,也是在逐步適應(yīng)這個過程。
重新定義AI芯片
人工智能芯片經(jīng)歷了從CPU->GPU->FPGA->AI芯片的發(fā)展歷程。
阿爾法狗的首次戰(zhàn)勝人類可謂是費了“洪荒之力”,本質(zhì)上是基于馮.諾依曼計算架構(gòu)所決定的。于是具備強(qiáng)大并行計算能力與浮點計算能力GPU一度成為深度學(xué)習(xí)模型訓(xùn)練和推理的標(biāo)配。相比CPU,GPU提供更快的處理速度,需要更少的服務(wù)器投入和更低的功耗,成為近些年來深度學(xué)習(xí)訓(xùn)練的主流模式。
但GPU無法滿足所有場景深度學(xué)習(xí)計算任務(wù)。除前面所述,再舉個例子,比如L4自動駕駛,需要識別道路、行人、紅綠燈等狀況,如果基于CPU計算,時延無法滿足要求,恐怕車翻到河里還沒發(fā)現(xiàn)前方是河;如果用GPU計算,雖然時延可以滿足要求,但是功耗大,汽車電池?zé)o法長時間運行。此外,1塊GPU卡少則萬元多則近10萬人民幣,無法普及大多數(shù)普通消費者。
本質(zhì)上,GPU不是專門針對AI算法開發(fā)的ASIC,人們亟需找到既能解決深度學(xué)習(xí)訓(xùn)練和推理的運算能力,又能解決功耗和成本問題的芯片,F(xiàn)PGA芯片在這樣背景下誕生。
FPGA可編程的陣列(Field-ProgrammableGateArray),作為ASIC領(lǐng)域中的一種半定制電路而出現(xiàn),本質(zhì)上是基于無指令,無需共享內(nèi)存的體系架構(gòu)創(chuàng)新,滿足了特定場景的需求。
FPGA主要通過以下手段提升性能、降低時延;減少能耗、降低成本:
通過燒入可配置、可反復(fù)刷寫的FPGA配置文件來定義大量門電路和存儲器間的連線。
通過配置文件,將FPGA變成不同的處理器,支持各種不同的深度學(xué)習(xí)計算任務(wù)。
FPGA中的寄存器和片上內(nèi)存,屬于各自的控制邏輯,無需不必要的沖裁和緩存。
根據(jù)研究發(fā)現(xiàn),對于大量的矩陣運算GPU計算能力遠(yuǎn)高于FPGA,但是由于FPGA體系結(jié)構(gòu)特點,非常適用于低時延、流式計算密集型任務(wù)處理。在類似海量并發(fā)的云端推斷,比如語音云識別場景,F(xiàn)PGA相比GPU具備更低計算時延的優(yōu)勢,能夠提供更佳的消費者體驗。
但是,F(xiàn)PGA芯片本質(zhì)上是通過預(yù)編程的方法來提升性能的,AI需要處理的內(nèi)容往往是大量非結(jié)構(gòu)化數(shù)據(jù),例如視頻、圖像等,這類數(shù)據(jù)很難通過預(yù)編程的方法得到滿意的結(jié)果。相反,需要通過人工智能芯片,進(jìn)行大量樣本訓(xùn)練和推理交互,形成算法模型后,集成了AI芯片和算法的智能設(shè)備,才能具備智能推理能力。
無論是GPU還是FPGA,雖然都可以運行AI算法,但均美中不足,GPU本質(zhì)上不是專門針對AI算法開發(fā)的ASIC,功耗大、成本高;FPGA雖然架構(gòu)有一定的創(chuàng)新,但是預(yù)編程繁瑣。從嚴(yán)格意義上來講,都不是AI芯片。那么,什么是AI芯片呢?我們知道,人工智能的深度學(xué)習(xí)算法的數(shù)據(jù)運算特征,需要芯片具備比傳統(tǒng)計算性能高出2-3個數(shù)量級。綜上分析,我們嘗試給出如下定義:
基于ASIC(專用集成電路),可以基于軟件靈活定義和高度定制的專用芯片。一方面,能夠進(jìn)行深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)運算;另一方面,基于硬件計算架構(gòu)的創(chuàng)新,提升深度學(xué)習(xí)運算效率,達(dá)到最佳能效(TOPS/W)的芯片,才可以稱之為AI芯片。
值得肯定的是,F(xiàn)PGA大膽邁出了人工智能芯片硬件架構(gòu)創(chuàng)新的第一步,即ASIC專用集成電路模式。
AI芯片依賴架構(gòu)創(chuàng)新
如上分析,F(xiàn)PGA之所以比CPU,GPU能耗低,本質(zhì)上是無指令,無需共享內(nèi)存的體現(xiàn)結(jié)構(gòu)帶來的福利。在探討架構(gòu)創(chuàng)新之前,我們來分析是什么原因造成了CPU/GPU無法滿足人工智能的需求。
目前市面上絕大多數(shù)AI芯片采用類CPU架構(gòu)(馮.諾依曼架構(gòu)的局部優(yōu)化),本質(zhì)上還是“計算優(yōu)先”模式,比如通過擴(kuò)展并行計算單元來提升芯片處理性能。但人工智能深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練,多個計算單元往往需要頻繁的存儲器讀寫操作,而類CPU架構(gòu)本質(zhì)上還是共享存儲模式,無法根本解決馮.諾依曼計算架構(gòu)共享內(nèi)存模式導(dǎo)致的存儲性能瓶頸問題,又稱“內(nèi)存墻”,類CPU架構(gòu)示意如下:
(圖二:類CPU芯片架構(gòu))
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)運算特征表現(xiàn)為:高并發(fā)、高耦合,以及“高并發(fā)+高耦合”的“三高”特征。算法處理需要進(jìn)行:大量的計算、大量的并行處理、低延遲的操作要求。以訓(xùn)練為例,訓(xùn)練過程涉及大量數(shù)據(jù)存儲,對內(nèi)存數(shù)量、訪問內(nèi)存的帶寬和內(nèi)存管理方法的要求都非常高。要求芯片具備一定精度的浮點數(shù)運算能力,且同時支持正向和反向的計算過程和多次迭代。其次,訓(xùn)練過程需要不斷調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù)(權(quán)重),包括參數(shù)的多次輸入和多次讀取,以及復(fù)雜的數(shù)據(jù)同步要求,整個在線訓(xùn)練過程參數(shù)的頻繁操作,對存儲器帶來非常巨大的挑戰(zhàn)。
本質(zhì)上,馮.諾依曼計算架構(gòu)是摩爾定律在人工智能場景下失效的根因。如何通過硬件體系架構(gòu)的創(chuàng)新,克服“存儲墻”瓶頸,實現(xiàn)人工智能最佳的深度學(xué)習(xí)算法運算效率,成為人工智能芯片架構(gòu)創(chuàng)新和發(fā)展的方向。
AI芯片架構(gòu)設(shè)計需要符合以下幾點要求:
符合深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)運算的基本需求,無論是訓(xùn)練還是推斷,以及兩者的協(xié)同,在數(shù)據(jù)精度、可伸縮、可擴(kuò)展能力以及功耗效率方面要滿足實際商用場景要求。
支持“近數(shù)據(jù)計算”,通過硬件架構(gòu)設(shè)計,拉近運算和存儲的距離,減少數(shù)據(jù)搬移次數(shù),降低能耗。比如支持神經(jīng)網(wǎng)絡(luò)運算放在片上存儲器進(jìn)行計算。
支持靈活伸縮和集群,支持大規(guī)模分布式并行AI訓(xùn)練。比如并行運算單元內(nèi)部通過超帶寬網(wǎng)絡(luò)進(jìn)行互聯(lián)。
支持軟件定義AI芯片,滿足絕大多數(shù)復(fù)雜AI的算法的個性化定制和組合應(yīng)用,通過廣泛的應(yīng)用達(dá)到邊際效益,降低AI芯片成本。
華為達(dá)芬奇AI芯片架構(gòu)介紹
華為公司順應(yīng)趨勢,基于多年的芯片研發(fā)經(jīng)驗,于2018年10月,推出全球獨創(chuàng)的達(dá)芬奇人工智能芯片架構(gòu),并基于此推出全棧全場景AI解決方案和首批Ascend(昇騰)系列芯片。值得一提的是,達(dá)芬奇架構(gòu)針對AI運算特征而設(shè)計,以高性能3DCube計算引擎為基礎(chǔ),實現(xiàn)了算力和能耗比(能效)的大幅提升。從云、邊緣、端獨立的和協(xié)同的AI實際需求出發(fā),從極致低功耗,到極致大算力的AI場景,為云、邊、端之間的算法協(xié)同、遷移、部署、升級和運維,提供了統(tǒng)一架構(gòu)底層核心支撐,大大降低了人工智能算法開發(fā)和迭代的門檻,降低企業(yè)人工智能部署和商用成本??梢哉f,統(tǒng)一、可擴(kuò)展的達(dá)芬奇AI芯片架構(gòu),為華為“用得起”、“用得好”、“用得放心”的全棧全場景普惠AI戰(zhàn)略,提供了強(qiáng)大的支撐。
達(dá)芬奇架構(gòu)如下:
(圖三:華為達(dá)芬奇芯片架構(gòu))
不同于傳統(tǒng)馮·諾伊曼架構(gòu),數(shù)據(jù)從處理單元外的存儲器提取,處理完之后再寫回存儲器。達(dá)芬奇架構(gòu)設(shè)計一開始就考慮克服馮·諾伊曼架構(gòu)導(dǎo)致的“內(nèi)存墻”問題,在類CPU架構(gòu)基礎(chǔ)(本質(zhì)是計算優(yōu)先)上,圍繞降低存儲復(fù)雜度做了進(jìn)一步的創(chuàng)新優(yōu)化(存儲優(yōu)先)。如圖三所示,一方面,通過多核堆疊實現(xiàn)并行計算能力擴(kuò)展;另一方面,通過設(shè)計了片上的存儲器(Cache/Buffer),拉近Cube運算和存儲的距離,減少對存儲器(DDR)的訪問,緩解馮·諾伊曼“瓶頸”問題;此外,運算與外部存儲之間,設(shè)計了高帶寬的片外存儲器(HBM),克服計算資源共享存儲器讀寫時的訪問速度限制。同時,為了支持更大規(guī)模云側(cè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練,設(shè)計了超高帶Mesh網(wǎng)絡(luò)(LSU)實現(xiàn)多個cube擴(kuò)展片上的互聯(lián)。
總結(jié)起來,達(dá)芬奇架構(gòu)具備三大特征:
統(tǒng)一架構(gòu)
支持幾十毫瓦到幾百瓦的全場景AI系列芯片。(參見圖四)
可擴(kuò)展計算
每個AIcore,在一個時鐘周期可以進(jìn)行完成4096次MAC運算
彈性多核堆疊,可擴(kuò)展Cube:16x16xN,N=16/8/4/2/1
支持多種混合多精度(int8/int32/FP16/FP32),支持訓(xùn)練和推理場景的數(shù)據(jù)精度要求
集成了張量、矢量、標(biāo)量多種計算單元
可擴(kuò)展內(nèi)存
專用的和分布的,顯式控制的內(nèi)存分布設(shè)計
4TByte/sL2Buffer緩存
1.2TByte/sHBM高帶寬內(nèi)存
可擴(kuò)展的片上互聯(lián)
片上超高帶寬Mesh網(wǎng)絡(luò)(LSU)
基于達(dá)芬奇創(chuàng)新架構(gòu),華為首批推出7nm的昇騰910(Ascend-Max)以及12nm的昇騰310(Ascend-Mini)。Ascend910芯片是目前全球已發(fā)布的單芯片計算密度最大的芯片。支持云側(cè)分布式大規(guī)模訓(xùn)練場景,若是集齊1024個昇騰910,會出現(xiàn)迄今為止全球最大的AI計算集群,性能達(dá)到256個P,不管多么復(fù)雜的模型都能輕松訓(xùn)練。
Ascend310芯片則是于邊緣計算推理場景高效算力和和低功耗AISoC。
基于達(dá)芬奇架構(gòu),華為公司還規(guī)劃了適用在藍(lán)牙耳機(jī)、智能手機(jī)、可穿戴設(shè)備的Ascend昇騰芯片系列(圖四:Nano、Tiny、Lite),未來將以IP方式跟其他芯片結(jié)合在一起服務(wù)于各個智能產(chǎn)品。目前市場面的AI芯片通常是云端訓(xùn)練、邊緣推理兩款芯片,華為之所以考慮Lite等,核心原因是一些AI應(yīng)用場景需要非常低的功耗。
此外,達(dá)芬奇AI芯片架構(gòu)考慮了軟件定義AI芯片的能力。CANN(圖四所示)—也就是芯片高度自動化的算子開發(fā)工具,是為神經(jīng)網(wǎng)絡(luò)定制的計算架構(gòu)。CANN可以提升3倍的開發(fā)效率。除了效率之外,也兼顧算子性能,以適應(yīng)人工智能應(yīng)用的迅猛發(fā)展。
(圖四:華為全棧全場景AI架構(gòu))
在設(shè)計方面,Ascend昇騰芯片系列突破了功耗、算力等約束,實現(xiàn)了能效比的大幅提升(參見圖五)。以Ascend910芯片為例,半精度(FP16)運算能力為256TFLOPS,比NVIDIA的TeslaV100要高一倍,整數(shù)精度(INT8)512TOPS,最大功耗僅350W;昇騰310芯片主打極致高效計算和低功耗,半精度(FP16)運算能力8TFLOPS,整數(shù)精度(INT8)16TOPS,最大功耗僅為8W,310的TOPS/W(能效)是英偉達(dá)同類芯片NVP4的2倍之多。
(圖五:華為Ascend昇騰系列芯片橫跨全場景實現(xiàn)最優(yōu)TOPS/W)
需要說明,華為不直接向第三方提供芯片,所以華為與芯片廠商,沒有直接競爭。華為提供硬件和云服務(wù),圍繞芯片為基礎(chǔ),開發(fā)AI加速模組,AI加速卡,AI服務(wù)器,AI一體機(jī),以及面向自動駕駛和智能駕駛的MDC(Mobile-DC)進(jìn)行銷售。
達(dá)芬奇架構(gòu)背后的思考
與以往信息化不同,AI帶來智能化的目的,是降低企業(yè)生產(chǎn)成本,提高效率,這意味著AI應(yīng)用將超越信息化,深入到企業(yè)生產(chǎn)系統(tǒng),一旦進(jìn)入生產(chǎn)系統(tǒng),就必須跟線下、本地各種場景相結(jié)合。因此,這也是為何達(dá)芬奇架構(gòu)設(shè)計的開始,就考慮了AI超動態(tài)、超寬范圍需求的目的。
但是,華為達(dá)芬奇架構(gòu)也只是站在巨人的肩膀上做了一定的微創(chuàng)新,仍面臨巨大的技術(shù)難點和待攻克的難題:
雖然芯片制造工藝已處于納米級,但在類腦、基因、抗癌新藥研制等更復(fù)雜的人工智能領(lǐng)域,集成密度的進(jìn)一步提高,將導(dǎo)致原子層電離泄露問題。比如,包括業(yè)界巨頭紛紛發(fā)力量子學(xué),也正因為于此。
雖然緩解馮·諾伊曼“瓶頸”問題成為共識,但與計算核心緊耦合的片上存儲器的唯一方案SRAM,其容量僅為兆級。存儲器件工藝本身的創(chuàng)新仍需努力。
存儲優(yōu)先模式,需要考慮多個片上存儲的封裝技術(shù),以及多個片上存儲的管理,對軟件的復(fù)雜性要求進(jìn)一步提升。
未來,在類腦智能領(lǐng)域(極限情況,AlphaGo消耗的能量與人類相同),能耗要求比最先進(jìn)CMOS器件還要低幾個數(shù)量級。
因此,我們認(rèn)為,華為在人工智能芯片技術(shù)的發(fā)展上取得了初步成果,但是AI芯片和架構(gòu)設(shè)計,特別是神經(jīng)網(wǎng)絡(luò)芯片所面臨的工程領(lǐng)域的挑戰(zhàn)遠(yuǎn)未停止。
中傳動網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(u63ivq3.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
關(guān)注伺服與運動控制公眾號獲取更多資訊
關(guān)注直驅(qū)與傳動公眾號獲取更多資訊
關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊
掃碼關(guān)注小程序
時刻關(guān)注行業(yè)動態(tài)
填寫郵件地址,訂閱更多資訊:
撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運動控制
- 伺服系統(tǒng)
- 機(jī)器視覺
- 機(jī)械傳動
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜