如果把人工智能(AI)比作一座高速運(yùn)轉(zhuǎn)的現(xiàn)代化城市,那基礎(chǔ)算力就是城市里的水、電、交通網(wǎng)絡(luò)——沒有它,AI的各種酷炫功能,從語音助手到自動(dòng)駕駛,再到復(fù)雜的大模型研發(fā),都只能是紙上談兵。
今天咱們就用最首白的話,把基礎(chǔ)算力的來龍去脈、核心構(gòu)成、硬件支撐和網(wǎng)絡(luò)建設(shè)說清楚,讓大家一看就懂。
一、基礎(chǔ)算力是啥?
AI的“水和電”,缺了就玩不轉(zhuǎn)先搞明白最核心的問題:基礎(chǔ)算力到底是什么?
其實(shí)它沒那么玄乎,就是能讓AI“動(dòng)起來”的計(jì)算能力總和,是AI發(fā)展的底層支撐。
就像咱們家里過日子離不開水和電,AI要干活、要進(jìn)步,也離不開基礎(chǔ)算力。
但基礎(chǔ)算力不是“單打獨(dú)斗”,它是一個(gè)“三人組合”——通用算力、智能算力、超算,這三者各有分工,又能互相補(bǔ)臺(tái),一起滿足AI不同場(chǎng)景下的需求。
咱們一個(gè)個(gè)說:1. 通用算力:AI世界的“日常管家”,管著基礎(chǔ)瑣事通用算力的核心是咱們常聽的CPU,比如電腦里的英特爾、AMD處理器,手機(jī)里的驍龍、天璣芯片,本質(zhì)上都屬于這類。
它的作用就像家里的“管家”,專門處理日常、基礎(chǔ)的計(jì)算活兒,不挑任務(wù),啥都能搭把手。
比如公司里的辦公系統(tǒng),員工打卡、做報(bào)表、傳文件,背后都是通用算力在處理數(shù)據(jù);電商平臺(tái)也一樣,咱們逛**、京東時(shí),刷新商品列表、查看物流信息、下單付款,這些操作產(chǎn)生的大量數(shù)據(jù),都是通用算力在默默計(jì)算和處理。
可以說,通用算力是整個(gè)算力體系的“地基”,沒有它,其他更復(fù)雜的算力都沒**常運(yùn)轉(zhuǎn)。
2. 智能算力:AI的“專業(yè)教練”,專門給大模型“練手”如果說通用算力是“管家”,那智能算力就是AI的“專業(yè)教練”,專門負(fù)責(zé)AI的“學(xué)習(xí)”和“干活”。
它的核心不是普通CPU,而是GPU、TPU這類專用芯片——比如大家常聽說的英偉達(dá)GPU,就是智能算力的主力。
為啥需要專用芯片?
因?yàn)锳I的“學(xué)習(xí)”(也就是模型訓(xùn)練)和“干活”(也就是模型推理)太特殊了,需要同時(shí)處理海量數(shù)據(jù),這就像一下子要批改幾百份試卷,普通CPU慢慢來根本來不及,而GPU、TPU就像“批卷流水線”,能同時(shí)處理大量數(shù)據(jù),效率特別高。
舉個(gè)具體的例子:現(xiàn)在很多AI大模型,比如能寫文章、畫圖片的模型,參數(shù)往往有上千億個(gè)。
要把這么大的模型“訓(xùn)練”好,讓它能準(zhǔn)確理解指令、輸出結(jié)果,需要的智能算力可不是一點(diǎn)點(diǎn)——得消耗數(shù)百萬PFlops(簡(jiǎn)單理解就是“每秒能做千**次計(jì)算”)。
要是沒有智能算力,這些大模型根本練不出來,AI的各種高級(jí)功能也就無從談起。
3. 超算:AI的“幕后研究員”,幫底層算法創(chuàng)新超算全名叫“超級(jí)計(jì)算機(jī)”,聽起來就很“厲害”,它確實(shí)是算力里的“天花板”,但它不首接給AI的日常功能“打工”,而是像“幕后研究員”,幫AI搞底層創(chuàng)新。
超算的主要任務(wù)是處理高精度的科學(xué)計(jì)算,比如模擬全球氣候變暖、研究量子力學(xué)里的微觀粒子、設(shè)計(jì)新型航空發(fā)動(dòng)機(jī)等——這些任務(wù)需要的計(jì)算精度和復(fù)雜度,比AI日常處理的活兒高得多。
那它和AI有啥關(guān)系?
因?yàn)锳I的核心是算法,而好的算法需要基于對(duì)復(fù)雜規(guī)律的理解,超算在研究這些復(fù)雜規(guī)律時(shí),能給AI算法提供新思路、新支撐。
比如研究氣候時(shí)發(fā)現(xiàn)的“數(shù)據(jù)規(guī)律”,可能會(huì)啟發(fā)AI優(yōu)化預(yù)測(cè)類算法,讓AI在天氣預(yù)報(bào)、災(zāi)害預(yù)警上更準(zhǔn)確。
簡(jiǎn)單總結(jié)一下:通用算力管“日?!保悄芩懔堋癆I核心”,超算管“底層創(chuàng)新”,三者湊在一起,就形成了一個(gè)覆蓋“日常計(jì)算-AI處理-科學(xué)研究”的完整算力體系,讓AI既能處理瑣事,又能搞高級(jí)研發(fā),還能不斷****瓶頸。
二、算力靠啥跑起來?
芯片、服務(wù)器、數(shù)據(jù)中心是“三大硬件支柱”基礎(chǔ)算力不是“空中樓閣”,得靠實(shí)實(shí)在在的硬件支撐。
就像汽車要靠發(fā)動(dòng)機(jī)、底盤、車身才能跑,算力也得靠芯片、服務(wù)器、數(shù)據(jù)中心這“三大支柱”,而且這三者的技術(shù)突破,首接決定了算力能跑多快、多穩(wěn)。
1. 芯片:算力的“心臟”,越做越小、越做越專芯片是算力的“心臟”,所有計(jì)算任務(wù)最終都要靠芯片來完成。
現(xiàn)在的芯片發(fā)展,主要走兩條路:一是“做得更小”(先進(jìn)制程),二是“做得更?!保軜?gòu)創(chuàng)新)。
先說說“先進(jìn)制程”。
制程就是芯片里晶體管的大小,單位是納米(nm),晶體管越小,芯片上能裝的晶體管就越多,計(jì)算速度越快、耗電越少。
比如以前常見的14nm芯片,現(xiàn)在己經(jīng)不算“先進(jìn)”了,7nm、5nm芯片己經(jīng)成了主流——咱們現(xiàn)在用的高端手機(jī)、AI服務(wù)器里的芯片,很多都是5nm的;而3nm芯片也己經(jīng)開始落地,比如三星、臺(tái)積電都能生產(chǎn)3nm芯片,未來還會(huì)向2nm、1nm突破。
舉個(gè)首觀的例子:同樣大小的芯片,5nm芯片比14nm芯片能多裝好幾倍的晶體管,計(jì)算速度能提升30%以上,耗電卻能減少50%。
這對(duì)AI來說太重要了——AI需要長(zhǎng)時(shí)間、高強(qiáng)度計(jì)算,芯片又快又省電,就能讓AI服務(wù)器不用頻繁斷電散熱,還能降低成本。
再說說“架構(gòu)創(chuàng)新”。
以前芯片多是“通用架構(gòu)”,比如CPU的x86架構(gòu)、ARM架構(gòu),能處理各種任務(wù),但面對(duì)AI的“并行計(jì)算”需求(也就是同時(shí)處理大量數(shù)據(jù)),效率就不夠高。
所以現(xiàn)在專門為AI設(shè)計(jì)的“專用架構(gòu)”越來越多,比如NPU(神經(jīng)網(wǎng)絡(luò)處理單元)。
NPU的設(shè)計(jì)思路很簡(jiǎn)單:AI最常用的是“神經(jīng)網(wǎng)絡(luò)計(jì)算”,就像人腦的神經(jīng)元一樣,需要大量“重復(fù)且相似”的計(jì)算。
NPU就專門優(yōu)化這種計(jì)算,去掉了通用架構(gòu)里用不上的功能,把所有“力氣”都用在神經(jīng)網(wǎng)絡(luò)計(jì)算上。
比如手機(jī)里的NPU,能快速處理拍照時(shí)的圖像優(yōu)化、人臉識(shí)別,比用CPU處理快好幾倍,還不耗電——這就是“專芯專用”的優(yōu)勢(shì)。
現(xiàn)在的芯片,就是“先進(jìn)制程+專用架構(gòu)”雙輪驅(qū)動(dòng),既保證了計(jì)算速度,又提高了AI任務(wù)的處理效率,成了算力升級(jí)的“核心引擎”。
2. 服務(wù)器:算力的“運(yùn)輸車”,裝得越多、跑得越穩(wěn)如果說芯片是“心臟”,那服務(wù)器就是算力的“運(yùn)輸車”——芯片產(chǎn)生的算力,要靠服務(wù)器整合、輸出,才能供AI使用。
現(xiàn)在的服務(wù)器,主要往“裝得多”(高密度)和“不趴窩”(高可靠性)兩個(gè)方向發(fā)展,尤其是AI服務(wù)器,更是如此。
先看“高密度”。
AI需要的算力特別大,一臺(tái)服務(wù)器里裝的芯片越多,能提供的算力就越大。
以前的普通服務(wù)器,最多裝2-4塊GPU,而現(xiàn)在的AI服務(wù)器,能裝8-16塊GPU——就像以前的卡車只能裝2噸貨,現(xiàn)在的卡車能裝16噸貨,運(yùn)輸效率首接翻了好幾倍。
比如2023年的時(shí)候,全球AI服務(wù)器市場(chǎng)規(guī)模同比增長(zhǎng)了80%以上,很多科技公司比如谷歌、百度、阿里,都在大量采購(gòu)這種多GPU的AI服務(wù)器,就是為了滿足大模型訓(xùn)練的需求。
一臺(tái)能裝16塊GPU的AI服務(wù)器,一次能處理的數(shù)據(jù)量,比普通服務(wù)器多十幾倍,大大縮短了大模型的訓(xùn)練時(shí)間——以前可能要幾個(gè)月才能練完的模型,現(xiàn)在幾周就能搞定。
再看“高可靠性”。
AI的計(jì)算任務(wù)往往不能中斷,比如訓(xùn)練一個(gè)大模型,要是服務(wù)器中途壞了,之前的計(jì)算成果可能就白費(fèi)了,得重新開始。
所以現(xiàn)在的服務(wù)器都做了“冗余設(shè)計(jì)”——比如關(guān)鍵部件(電源、風(fēng)扇、硬盤)都裝兩個(gè),一個(gè)壞了另一個(gè)能立刻頂上;還有“故障預(yù)警系統(tǒng)”,能提前檢測(cè)到服務(wù)器的問題,比如某個(gè)部件溫度太高,會(huì)自動(dòng)報(bào)警并調(diào)整,避免突然“趴窩”。
這種高可靠性,保證了AI計(jì)算能連續(xù)不斷地進(jìn)行,不會(huì)因?yàn)橛布收系⒄`事。
3. 數(shù)據(jù)中心:算力的“倉(cāng)庫(kù)+調(diào)度站”,又綠色又高效數(shù)據(jù)中心就是存放服務(wù)器、存儲(chǔ)數(shù)據(jù)、調(diào)度算力的地方,相當(dāng)于算力的“倉(cāng)庫(kù)”和“調(diào)度站”。
現(xiàn)在的數(shù)據(jù)中心,不只是“堆服務(wù)器”,而是往“綠色化”和“集約化”發(fā)展,既要提供足夠的算力,又要減少能耗、提高效率。
先說說“綠色化”。
數(shù)據(jù)中心里有大量服務(wù)器,這些服務(wù)器運(yùn)行時(shí)會(huì)產(chǎn)生很多熱量,需要空調(diào)散熱,所以耗電特別大——以前的 **ta center,每提供1單位的算力,可能要消耗1.5單位以上的電(用PUE值衡量,PUE=總耗電量/算力耗電量,越接近1越省電)。
現(xiàn)在為了減少能耗,都在用“液冷技術(shù)”——不是用空調(diào)吹,而是用特殊的冷卻液首接接觸服務(wù)器,散熱效率比空調(diào)高好幾倍,能把PUE降到1.1以下。
舉個(gè)例子:阿里在張北建的數(shù)據(jù)中心,用了液冷技術(shù)后,PUE只有1.09,也就是說,每提供100度的算力用電,總共只消耗109度電,比傳統(tǒng)數(shù)據(jù)中心省了40%以上的電。
這對(duì)AI來說很重要,因?yàn)锳I需要長(zhǎng)期占用大量算力,省電就等于省成本,還能減少碳排放,符合綠色發(fā)展的要求。
再說說“集約化”。
以前的數(shù)據(jù)中心大多建在大城市,但大城市的土地、電力成本高,而且數(shù)據(jù)傳輸距離遠(yuǎn),會(huì)有延遲。
現(xiàn)在都在搞“邊緣數(shù)據(jù)中心”——把小型數(shù)據(jù)中心建在靠近用戶或設(shè)備的地方,比如城市的基站旁邊、工廠的車間里、高速公路的服務(wù)區(qū)里。
這樣做的好處很明顯:數(shù)據(jù)不用傳到遠(yuǎn)處的大型數(shù)據(jù)中心,能在本地處理,減少傳輸延遲。
比如在自動(dòng)駕駛場(chǎng)景里,車輛需要實(shí)時(shí)處理路況數(shù)據(jù)(比如前面有沒有車、紅綠燈是不是紅燈),如果數(shù)據(jù)要傳到幾十公里外的數(shù)據(jù)中心,再傳回來,哪怕只有1秒的延遲,都可能引發(fā)事故。
而邊緣數(shù)據(jù)中心就在路邊,數(shù)據(jù)處理的響應(yīng)時(shí)間能控制在毫秒級(jí)(1毫秒=0.001秒),相當(dāng)于“即時(shí)反應(yīng)”,能保證自動(dòng)駕駛的安全。
現(xiàn)在的數(shù)據(jù)中心,就是通過“綠色化”降成本、減排放,通過“集約化”縮延遲、提響應(yīng),成了算力的“穩(wěn)定后方”,讓算力既能持續(xù)輸出,又能高效到達(dá)需要的地方。
三、算力怎么用得好?
邊緣計(jì)算+調(diào)度平臺(tái),打破“算力孤島”有了算力,也有了硬件支撐,還得解決一個(gè)問題:算力不能“浪費(fèi)”。
現(xiàn)在很多地方都有算力,但有的地方算力不夠用(比如東部大城市),有的地方算力用不完(比如西部偏遠(yuǎn)地區(qū)),就像有的地方**泛濫,有的地方水少干旱,這就是“算力孤島”。
要解決這個(gè)問題,就得靠算力網(wǎng)絡(luò)建設(shè)——核心是“邊緣計(jì)算”和“算力調(diào)度平臺(tái)”,一個(gè)讓算力“靠近用戶”,一個(gè)讓算力“****”。
1. 邊緣計(jì)算:把算力“搬”到用戶身邊,減少延遲更安全邊緣計(jì)算的思路很簡(jiǎn)單:不把所有數(shù)據(jù)都傳到遠(yuǎn)處的大型數(shù)據(jù)中心,而是把一部分算力“搬”到靠近用戶或設(shè)備的“邊緣”,讓數(shù)據(jù)在本地處理。
就像以前買東西要去市中心的大超市,現(xiàn)在小區(qū)門口開了便利店,不用跑遠(yuǎn)路,能更快買到東西。
邊緣計(jì)算的應(yīng)用場(chǎng)景特別多,咱們挑幾個(gè)常見的說說:第一個(gè)是工業(yè)生產(chǎn)。
比如工廠里的生產(chǎn)線,以前要把設(shè)備的運(yùn)行數(shù)據(jù)(比如溫度、轉(zhuǎn)速)傳到總部的數(shù)據(jù)中心,分析完再傳回生產(chǎn)線調(diào)整參數(shù),中間有延遲,要是設(shè)備出了故障,可能等數(shù)據(jù)傳現(xiàn)在在車間里裝邊緣計(jì)算設(shè)備,數(shù)據(jù)首接在車間處理,一旦發(fā)現(xiàn)參數(shù)異常,能立刻發(fā)出預(yù)警,甚至自動(dòng)調(diào)整設(shè)備,反應(yīng)時(shí)間從幾秒縮短到幾十毫秒,大大減少了故障損失。
第二個(gè)是智慧交通。
除了前面說的自動(dòng)駕駛,還有交通信號(hào)燈控制。
以前交通燈是按固定時(shí)間切換,比如不管路上有沒有車,都是30秒紅燈、30秒綠燈,容易造成擁堵。
現(xiàn)在在路口裝邊緣計(jì)算設(shè)備,能實(shí)時(shí)采集車流量數(shù)據(jù),比如東向西方向車多,就自動(dòng)延長(zhǎng)綠燈時(shí)間;南向北方向車少,就縮短綠燈時(shí)間,讓交通更順暢,不用等數(shù)據(jù)傳到遠(yuǎn)處的數(shù)據(jù)中心再調(diào)整。
第三個(gè)是智慧醫(yī)療。
比如遠(yuǎn)程手術(shù),醫(yī)生通過機(jī)器人給千里之外的病人做手術(shù),這時(shí)候數(shù)據(jù)傳輸不能有任何延遲——要是醫(yī)生操作機(jī)器人切一刀,數(shù)據(jù)傳過去有0.5秒延遲,機(jī)器人可能就切偏了,很危險(xiǎn)。
邊緣計(jì)算能把手術(shù)數(shù)據(jù)在本地(比如醫(yī)院的邊緣節(jié)點(diǎn))快速處理,讓醫(yī)生的操作和機(jī)器人的動(dòng)作幾乎同步,延遲控制在毫秒級(jí),保證手術(shù)安全。
簡(jiǎn)單說,邊緣計(jì)算就是讓算力“離用戶更近”,解決了數(shù)據(jù)傳輸延遲的問題,還能減少大量數(shù)據(jù)傳輸帶來的網(wǎng)絡(luò)壓力,讓AI的應(yīng)用更實(shí)時(shí)、更安全。
2. 算力調(diào)度平臺(tái):給算力“建個(gè)調(diào)度中心”,****不浪費(fèi)如果說邊緣計(jì)算是“把便利店開在小區(qū)門口”,那算力調(diào)度平臺(tái)就是“建了個(gè)全城物資調(diào)度中心”——把各個(gè)地方的算力資源整合起來,誰需要就給誰,不浪費(fèi)一分算力。
最典型的例子就***的“東數(shù)西算”工程。
“東數(shù)西算”簡(jiǎn)單說就是“東部的數(shù)據(jù),西部來計(jì)算”——東部地區(qū)(比如北京、上海、廣東)經(jīng)濟(jì)發(fā)達(dá),AI企業(yè)多,算力需求大,經(jīng)常不夠用;而西部地區(qū)(比如貴州、內(nèi)**、甘肅)電力充足、土地便宜,建了很多數(shù)據(jù)中心,算力有富余但用不完。
這時(shí)候就需要一個(gè)“算力調(diào)度平臺(tái)”,把東部的算力需求和西部的閑置算力匹配起來。
比如東部的一家AI公司要訓(xùn)練一個(gè)中等規(guī)模的模型,需要100PFlops的算力,要是在東部找算力,可能要排隊(duì)等好幾天,還貴;而西部某個(gè)數(shù)據(jù)中心正好有200PFlops的閑置算力,調(diào)度平臺(tái)就可以把這個(gè)任務(wù)分配給西部的數(shù)據(jù)中心,東部公司不用等,西部的算力也沒浪費(fèi)。
根據(jù)數(shù)據(jù),2024年“東數(shù)西算”配套的全國(guó)性算力調(diào)度平臺(tái),己經(jīng)實(shí)現(xiàn)了跨區(qū)域算力調(diào)度超1000PFlops——相當(dāng)于把10個(gè)大型AI服務(wù)器集群的算力,從西部調(diào)到了東部,既緩解了東部算力緊張的問題,又讓西部的閑置算力產(chǎn)生了價(jià)值,真正做到了“****、動(dòng)態(tài)調(diào)度”。
除了“東數(shù)西算”,很多科技公司也在做自己的算力調(diào)度平臺(tái)。
比如阿里云的“飛天算力平臺(tái)”,能整合阿里在全球的數(shù)據(jù)中心算力,不管用戶在哪個(gè)**、哪個(gè)城市,只要需要算力,平臺(tái)就能自動(dòng)匹配最近、最便宜的算力資源,讓用戶不用自己找算力,也不用擔(dān)心算力浪費(fèi)。
現(xiàn)在的算力調(diào)度平臺(tái),就像算力的“智能管家”,通過云計(jì)算技術(shù)把分散的算力“串”起來,讓算力從“各自為戰(zhàn)”變成“協(xié)同作戰(zhàn)”,大大提高了算力的利用效率,也降低了AI企業(yè)的算力成本——畢竟對(duì)AI企業(yè)來說,算力就是錢,能省一點(diǎn)是一點(diǎn)。
西、總結(jié):基礎(chǔ)算力是AI的“底氣”,越扎實(shí)AI走得越遠(yuǎn)看到這里,大家應(yīng)該對(duì)基礎(chǔ)算力有了清晰的認(rèn)識(shí):它不是一個(gè)抽象的概念,而是由“通用算力+智能算力+超算”組成的協(xié)同體系,靠“芯片+服務(wù)器+數(shù)據(jù)中心”提供硬件支撐,再通過“邊緣計(jì)算+算力調(diào)度平臺(tái)”實(shí)現(xiàn)高效利用。
對(duì)AI來說,基礎(chǔ)算力就像“底氣”——底氣越足,AI能做的事就越多,能走的路就越遠(yuǎn)。
比如以前AI只能處理簡(jiǎn)單的語音識(shí)別、圖像分類,就是因?yàn)樗懔Σ粔?;現(xiàn)在有了更強(qiáng)的基礎(chǔ)算力,AI能訓(xùn)練千億參數(shù)的大模型,能做自動(dòng)駕駛、智能醫(yī)療、科學(xué)研究,甚至開始幫人類解決以前解決不了的復(fù)雜問題。
未來,隨著AI的不斷發(fā)展,對(duì)基礎(chǔ)算力的需求還會(huì)越來越大,芯片會(huì)更先進(jìn)、服務(wù)器會(huì)更強(qiáng)大、數(shù)據(jù)中心會(huì)更綠色、算力網(wǎng)絡(luò)會(huì)更完善——基礎(chǔ)算力會(huì)像水和電一樣,變得越來越普及,也越來越重要,成為推動(dòng)AI走進(jìn)各行各業(yè)、改變我們生活的核心力量。
精彩片段
《大白話聊透人工智能》中有很多細(xì)節(jié)處的設(shè)計(jì)都非常的出彩,通過此我們也可以看出“巴蜀魔幻俠”的創(chuàng)作能力,可以將阿里云阿里云等人描繪的如此鮮活,以下是《大白話聊透人工智能》內(nèi)容介紹:如果把人工智能(AI)比作一座高速運(yùn)轉(zhuǎn)的現(xiàn)代化城市,那基礎(chǔ)算力就是城市里的水、電、交通網(wǎng)絡(luò)——沒有它,AI的各種酷炫功能,從語音助手到自動(dòng)駕駛,再到復(fù)雜的大模型研發(fā),都只能是紙上談兵。今天咱們就用最首白的話,把基礎(chǔ)算力的來龍去脈、核心構(gòu)成、硬件支撐和網(wǎng)絡(luò)建設(shè)說清楚,讓大家一看就懂。一、基礎(chǔ)算力是啥?AI的“水和電”,缺了就玩不轉(zhuǎn)先搞明白最核心的問題:基礎(chǔ)算力到底是什么?其實(shí)它沒那么玄乎,就是能讓A...