■本報記者 趙廣立
日前,武漢城市人工智能(AI)計算中心建成投用,媒體(ti) 在報道該中心算力時稱:“中心一期建設規模100P FLOPS人工智能算力……其算力相當於(yu) 5萬(wan) 台高性能計算機。”該報道一出,引發高性能計算領域專(zhuan) 家關(guan) 注。相關(guan) 專(zhuan) 家對《中國科學報》表示,該報道內(nei) 容對“超級計算機”與(yu) “智能計算機”認識不清、概念混淆,極易引發誤導。
中國科學院計算技術研究所研究員、中國計算機學會(hui) 高性能計算專(zhuan) 業(ye) 委員會(hui) 秘書(shu) 長張雲(yun) 泉告訴《中國科學報》:“智能計算機不是超級計算機,兩(liang) 者的概念應該區分清楚,否則可能會(hui) 引起行業(ye) 混亂(luan) 。”
超級計算機還是智能計算機
目前業(ye) 界用於(yu) 衡量超級計算的Linpack測試,測試的是超級計算機的“雙精度浮點運算能力”,即64位浮點數字的計算(FP64)。在以二進製所表示的數字精度中,還有單精度(32位,FP32)、半精度(16位,FP16)以及整數類型(如INT8、INT4)等。數字位數越高,意味著人們(men) 可以在更大範圍的數值內(nei) 體(ti) 現兩(liang) 個(ge) 數值的變化,從(cong) 而實現更精確計算。
與(yu) 許多科學計算等不同,AI所需的計算力不需要太高精度。“比如一些AI應用需要處理的對象是語音、圖片或視頻,運行低精度計算甚至整型計算即可完成推理或訓練。”張雲(yun) 泉說,這種專(zhuan) 用計算機處理AI算法速度快、能耗低,這是由其特點決(jue) 定的。
智能計算機是一種專(zhuan) 用算力,在推理或訓練等智能計算方麵的確表現出色,但由於(yu) AI推理或訓練一般僅(jin) 用到單精度甚至半精度計算、整型計算,多數智能計算機並不具備高精度數值計算能力,這也限製其在AI計算之外的應用場景使用。
而超級計算機是一種通用算力,其設計目標是提供完備、複雜的計算能力,在高精度計算方麵能力更強、應用範圍更廣,比如科學家常使用超級計算機進行行星模擬、新材料開發、分子藥物設計、基因分析等科學計算和大數據處理。
中國工程院院士陳左寧曾形象地將使用超級計算機做AI計算比喻成“大馬拉小車”,來說明超級計算雖然“十項全能”,但畢竟不是為(wei) AI量身打造。智能計算機由此興(xing) 起。
此前曾一度熱炒的AI與(yu) 超算融合,其實正是將改良的計算機“AI專(zhuan) 用化”,嚴(yan) 格意義(yi) 上來說,它們(men) 已經不再屬於(yu) 傳(chuan) 統超算範疇。
“現在不論超級計算中心落成還是智能計算中心,都宣稱算力是多少‘FLOPS’,其實這個(ge) 單位是‘每秒浮點運算能力’,而一些智能計算機的單位其實是‘OPS’——每秒操作次數。如果不加區別地報道,大家很容易誤認為(wei) 是同一種計算精度、同一種計算能力。”張雲(yun) 泉說,這也導致一些地方以為(wei) 花了小錢建了世界頂級的“大超級計算”,好像占了便宜;等項目上了馬,將項目介紹給超算業(ye) 內(nei) 人士時,才恍然大悟。
用新指標引導行業(ye) 健康發展
張雲(yun) 泉告訴記者,除了混淆智能計算機和超級計算機之外,業(ye) 內(nei) 還存在另外一種誤導。
“有些廠商還會(hui) 模糊智能計算機的推理性能和訓練性能。”張雲(yun) 泉告訴《中國科學報》,“與(yu) 推理相比,訓練性能往往需要計算精度高一些,比如32位甚至64位;而大部分性能‘耀眼’的AI芯片,往往指的是其推理性能,而且可能隻是理論值。”
對於(yu) AI計算而言,訓練性能往往更重要——許多智能模型正是依賴於(yu) 此。張雲(yun) 泉說,訓練模型的計算量與(yu) 參數量成正比,而且需要反複迭代,直到達到理想的效果。
如果要畫一張AI所需算力的示意圖,“推理”位於(yu) 算力矩陣的最下層,因為(wei) 半精度算力(FP16)或整型算力(如INT8)即可滿足推理需要;排在其上的是“訓練”,一般需要使用單精度算力(FP32)或半精度算力(FP16);對算力需求最高的是類腦“模擬”,它需要雙精度算力(FP64)和低精度算力同時支持。
“混淆傳(chuan) 統超級計算與(yu) 智能計算、混淆智能計算的訓練性能和推理性能,這兩(liang) 種情況都可能會(hui) 導致用戶或地方政府錯誤決(jue) 策——他們(men) 本意是建設強大的計算集群,最後卻隻建成了一台隻有推理性能的機器。”張雲(yun) 泉說。
對此,張雲(yun) 泉認為(wei) ,需要一個(ge) 簡單、有效的指標來幫助判斷係統的AI算力和整個(ge) 高性能AI領域的發展狀況,從(cong) 而防止行業(ye) 亂(luan) 象。
2020年11月,張雲(yun) 泉聯合清華大學教授陳文光、美國阿貢國家實驗室研究員Pavan Balaji和瑞士蘇黎世聯邦理工學院教授Torsten Hoefler,與(yu) ACM SIGHPC China委員會(hui) 共同發起了基於(yu) AIPerf大規模AI算力基準評測程序的“國際人工智能性能算力500排行榜”。記者注意到,這一榜單的算力單位是OPS。
“超級計算與(yu) AI計算,一碼歸一碼,需要一個(ge) 新的標尺來引導AI計算行業(ye) 走上健康發展的道路。”張雲(yun) 泉說。
國產(chan) AI芯片正待奮起直追
算力始於(yu) 芯片。在AI芯片賽道上,我國擁有華為(wei) (昇騰)、百度昆侖(lun) 、燧原等芯片設計企業(ye) ,但即便如此,國內(nei) 的智能計算機仍很少能繞過美國GPU巨頭英偉(wei) 達。
這是一個(ge) 無奈的現實:國內(nei) 上馬諸多智能計算中心,英偉(wei) 達是切切實實的受益者。
“專(zhuan) 門做智能計算的AI芯片,隻要核數足夠多、主頻足夠高,就可以實現速度更快、在低精度計算中高出幾個(ge) 量級的性能。但如果某個(ge) 計算集群既需要高精度計算又需要低精度計算,這對AI芯片的要求就高了。”張雲(yun) 泉說,英偉(wei) 達的GPU各種精度的計算能力都很突出、比較均衡。這也是大部分國產(chan) AI芯片難以與(yu) 英偉(wei) 達GPU硬碰硬的原因之一。
不過,國產(chan) AI芯片並非完全沒有機會(hui) 。
首先,當下我國的算力基礎設施,都有強烈的國產(chan) 化意願。即便英偉(wei) 達、英特爾等巨頭虎踞龍盤,但基於(yu) 綜合成本、生態等各類因素,國產(chan) 化的大潮仍不可阻擋。
其次,就AI當前發展而言,場景、數據、模型、算力缺一不可,這也就意味著,中國將是未來全球AI算力富集地。AI芯片作為(wei) 核心需要,不可能被一種形態、一種生態所壟斷,寒武紀、昇騰等國產(chan) AI芯片的佼佼者仍坐擁巨大發展空間。
專(zhuan) 家認為(wei) ,雖然芯片是算力的主要來源和最根本的物質基礎,但是算力的生產(chan) 、聚合、調度和釋放是一個(ge) 完整過程,需要複雜係統的軟硬件生態共同配合,才能實現“有效算力”。因此,不能隻關(guan) 注芯片的單一性能指標,更要注重上層軟件應用生態。
沒有巨大算力無法發展AI?
在算力概念被混淆的背後,是AI計算有如脫韁野馬一般瘋長的算力需求。
由多位矽穀“大亨”聯合建立的人工智能非營利組織OpenAI,在2020年5月推出了其新一代無監督的轉化語言模型GPT-3,目前已有1750億(yi) 參數,訓練數據量達到45TB(約1萬(wan) 億(yi) 單詞量)。
GPT-3模型目前已經在語義(yi) 搜索、文本生成、內(nei) 容理解、機器翻譯等方麵取得重大突破。其最大價(jia) 值是證實了機器在無監督下的自我學習(xi) 能力,驗證了純粹通過擴大規模即可實現性能提升。
更壯觀的是,萬(wan) 億(yi) 參數模型已經在路上。6月初,北京智源人工智能研究院發布了“悟道2.0”,宣稱達到1.75萬(wan) 億(yi) 參數,超過之前由穀歌發布的Switch Transformer,成為(wei) 全球最大的預訓練模型。
迅猛增長的參數體(ti) 量,也意味著更高的計算需求——有的可能需要數千塊GPU來提供必要的算力。張雲(yun) 泉說,類似GPT這樣的巨模型,對算力的需求“不是鬧著玩的”。
難道,沒有巨大算力就無法發展AI嗎?
張雲(yun) 泉認為(wei) ,在目前AI的發展階段(感知智能和認知智能)中,算力仍然是第一位的。
他的理由是,發展AI可以通過算力提升、算法革命等途徑進行,但在“資本導向”的現階段,相比不確定性的算法模型突破,算力提升是個(ge) 更容易的選擇。
但必須要指出的是,運用巨大算力並不是人工智能發展的唯一方向,GPT-3這樣的巨模型同樣存在缺陷,如缺乏常識等;而探索人腦奧妙機理,實現小數據學習(xi) 、遷移學習(xi) 也是重要手段。
畢竟,大腦的功耗隻有20瓦左右,創建低能耗的智能係統或許是更重要的努力方向。
《中國科學報》 (2021-06-17 第3版 信息技術)