圖片來(lái)自pixabay.com
編者按
本篇演講整理自8月12日《未來(lái)論壇·理解未來(lái)》第30期講座。美國(guó)加州大學(xué)計(jì)算機(jī)系校長(zhǎng)講席教授、電子工程系教授叢京生深入淺出地講述了摩爾定律的起源、發(fā)展、巔峰時(shí)刻以及在如今的“終結(jié)”時(shí)代,計(jì)算機(jī)行業(yè)該如何應(yīng)對(duì)?作為可定制計(jì)算中心的主任,他重點(diǎn)介紹了他所在的研究組的工作,比如設(shè)計(jì)專門的測(cè)序芯片,專門的加密芯片,深度學(xué)習(xí)芯片。最后,他指出了其他的技術(shù)路徑,如三維電路,類腦芯片,量子計(jì)算等都可能是有效的路徑。
大家常常聽到計(jì)算機(jī),有軟件,有硬件,你愿意學(xué)軟件還是愿意學(xué)硬件,有什么區(qū)別呢?硬件和軟件之間有一個(gè)指令集,這個(gè)指令集定義了軟件和硬件的界面,定義一些最基本的操作。一般一個(gè)計(jì)算機(jī)大概有幾十個(gè),甚至上百個(gè)指令,這些是最基本的機(jī)器的指令。你寫的程序分解成各種各樣的指令。做硬件,就是做一個(gè)最好的計(jì)算機(jī),執(zhí)行這些指令。軟件也是把你的程序分解成最基本的這些指令,不過(guò),現(xiàn)在這個(gè)指令也造成了很大的問(wèn)題。計(jì)算的時(shí)候有上百個(gè)指令,其實(shí)在早期沒(méi)有多少計(jì)算元件,你要執(zhí)行這么多指令怎么辦?我們就用同一個(gè)數(shù)據(jù)通道,同一個(gè)計(jì)算單元執(zhí)行所有的指令。指令進(jìn)來(lái)之后我先分析一下是什么指令,我按照你指令的需求把我的開關(guān)重新設(shè)置一下,這樣我來(lái)執(zhí)行這個(gè)指令,這個(gè)執(zhí)行完了,數(shù)據(jù)存了以后再執(zhí)行下一個(gè)指令。所以,簡(jiǎn)單的一個(gè)指令要經(jīng)過(guò)幾個(gè)步驟:從獲取指令,解碼看一下什么指令,進(jìn)行計(jì)算,最后把數(shù)據(jù)存起來(lái),是這么一個(gè)循環(huán)往復(fù)的過(guò)程。
摩爾定律接近終點(diǎn)
摩爾定律是摩爾(Gordon Moore)1965年有一個(gè)預(yù)測(cè),他看了英特爾做的幾個(gè)芯片,他覺(jué)得18到24個(gè)月可以把晶體管的個(gè)數(shù)翻一番。當(dāng)時(shí)他看的只是幾個(gè)數(shù)據(jù),沒(méi)想到這么一個(gè)簡(jiǎn)單的預(yù)言成真了,下面幾十年一直按這個(gè)節(jié)奏往前走。這真是一個(gè)了不起的事情,每次翻一番大家知道是指數(shù)型的發(fā)展。
摩爾定律已經(jīng)50多年了,現(xiàn)在還在繼續(xù),為什么呢?是因?yàn)槲覀儼丫w管不停地做小,否則同樣的大小,你的計(jì)算機(jī)已經(jīng)把整個(gè)科技館都占了還不止。每過(guò)18到26個(gè)月,每個(gè)晶體管比原來(lái)小了70%左右,這是非??膳碌?。給大家一個(gè)概念,不知道大家有沒(méi)有玩過(guò)俄國(guó)的套娃,很有意思,你打開她以后里面又有一個(gè)小娃娃,據(jù)說(shuō)最大的里面有50多層套著。我女兒跟我前幾個(gè)星期坐著波爾地海游輪到俄國(guó),買了個(gè)十層的娃娃,每個(gè)我算了一下差不多70%,經(jīng)過(guò)十次以后,這個(gè)娃娃小到你基本上看不到了,所以為什么能集成度這么高,是因?yàn)榫w管越做越小?,F(xiàn)在大概做到只是20納米。你今天應(yīng)該很自豪,在你的兜里裝了一個(gè)有幾十億晶體管,每個(gè)都有20納米的這么一個(gè)先進(jìn)的儀器。
我們不但可以把它做得小,晶體管的速度也越來(lái)越快,而且是指數(shù)型的增長(zhǎng)。有些同仁可能有點(diǎn)失望,我為什么要聽你講,這種好事已經(jīng)發(fā)生了50多年了。這確實(shí)是個(gè)很重要的問(wèn)題,所有的好事都要結(jié)束了。到了2000年前后都是這樣的,晶體管越來(lái)越小,而且越來(lái)越快。但是到2000年前后發(fā)生問(wèn)題了,發(fā)現(xiàn)晶體管可以做得越來(lái)越小,但是芯片的溫度越來(lái)越高,如果我不做任何的事情,我讓計(jì)算的頻率增快,就要接近原子能發(fā)電站的溫度了,要接近火箭口或太陽(yáng)表面的溫度了。這是不可能的!今天你拿著你的筆記本擱在腿上比較燙,都比較緊張,如果到了溫度到了火箭口的溫度,你是不可能接受的。我不講具體的原因,其實(shí)是因?yàn)槲覀兊碾妷翰荒苤笖?shù)級(jí)的下降,原來(lái)之所以晶體管可以能耗越來(lái)越小,是因?yàn)樵诎阉冃〉耐瑫r(shí)把電壓也降下來(lái)了。一定時(shí)候電壓降不下來(lái)了,所以晶體管的能耗,芯片的能耗就越來(lái)越高了。
怎么辦呢?今天不管花多少錢,你的主頻超不過(guò)2到4赫茲,但是你確實(shí)可以買到多核的計(jì)算機(jī)。一個(gè)英特爾芯片有8核,你稍微看一下集成電路的芯片就很明顯,原來(lái)每一個(gè)核都是一個(gè)單獨(dú)的計(jì)算器,現(xiàn)在全給集成在里面了,雖然說(shuō)每個(gè)晶體管的速度沒(méi)有提高,但是晶體管多了以后計(jì)算還是快了很多。
中國(guó)有全世界最快的超算計(jì)算機(jī),最近叫“神威太湖之光”,芯片全是國(guó)產(chǎn)的芯片?!疤狻庇昧硕嗪说挠?jì)算,每個(gè)里面有256個(gè)芯片,若干個(gè)芯片迭代起來(lái)搭了一個(gè)超大的計(jì)算機(jī),現(xiàn)在是全球最大的計(jì)算機(jī)。有一個(gè)公司,他們做深度學(xué)習(xí)用了圖形加速器,現(xiàn)在最新的GPU有3600個(gè)芯片,雖然說(shuō)速度沒(méi)有增加,但是里面集成度還是在增加。這里可以看到,摩爾定律是集成度不停地增加,速度和并行在不停地提高。
你可能要問(wèn)了,到最后有什么問(wèn)題要解決?其實(shí)還是有不少問(wèn)題的。第一個(gè),摩爾定律像所有的聚會(huì)一樣都是有聚有散的,你今天花錢買到的電子元件大概是22納米到16納米的晶體管,這已經(jīng)是最超前的了。如果你是蘋果手機(jī),是5和6是到不了,如果是蘋果7是在這么一個(gè)區(qū)間。你有一個(gè)16到22納米的元件已經(jīng)是非常非常不可思議的事情,這么小的元件是怎么制造,怎么把它切出來(lái)?我們今天最快的刀不知道比它厚多少倍。最鋒利的刀是激光。激光的波長(zhǎng)是193納米,我用一個(gè)大概200納米的刀去切除一個(gè)20納米的晶體管,所以這是很不容易的一個(gè)事情。就像寫書法,我讓你用一厘米粗的筆給我寫出一毫米小的字,可不可以寫呢?可以,但是不容易。我們往下能走多少呢,我不知道了。有人告訴我說(shuō)是7納米、5納米、3納米,我取個(gè)中間值5納米,到這里可能就要截止了,因?yàn)橛泄に嚿系脑颍袃r(jià)格上的原因。這個(gè)就有意思了,如果這個(gè)結(jié)束了怎么辦,計(jì)算的能力能不能接著提高?
定制計(jì)算的威力
我們一直在思考這個(gè)問(wèn)題,即使在2007、2008年的時(shí)候離摩爾定律的終點(diǎn)還有不少距離的時(shí)候。我們提了這么一個(gè)想法,以后的計(jì)算不應(yīng)該簡(jiǎn)單的并行,而且要定制化。我們給美國(guó)自然科學(xué)基金會(huì)送了一個(gè)提案,未來(lái)的計(jì)算叫定制計(jì)算(CustomizedComputing)。我們挺幸運(yùn)的,這個(gè)提案被接收了,我們得到了1000萬(wàn)美元做這樣一個(gè)很大的研究項(xiàng)目。前面若干年我們一直在做這方面的工作。我簡(jiǎn)單講一下,為什么定制計(jì)算有這么大的作用。
這張表是UCLA(加州大學(xué)洛杉磯分校)教授十多年前做的一個(gè)研究,比較通用計(jì)算和專用計(jì)算之間的區(qū)別。他選了一個(gè)應(yīng)用,實(shí)現(xiàn)一個(gè)加密算法AES。你想買東西但同時(shí)不想信用卡的號(hào)被別人一下子拿到,那就加密以后送過(guò)去那邊再解密,加密解密是我們常做的事情。加密的算法,首先做了一個(gè)特殊的芯片來(lái)實(shí)現(xiàn),每秒鐘能加密多少比特,用了多少功耗,單位功耗可以加密多少個(gè)比特,作為一個(gè)參考值。這是一個(gè)專用的芯片,這個(gè)事不能干別的,只能做加密這個(gè)事情。他同時(shí)又用了一個(gè)低功耗的CPU,他用通用的CPU做,這么一來(lái)就差了85倍。他用了一個(gè)高性能的計(jì)算機(jī),英特爾公司的,差了800倍。另外,如果用JAVA在通用計(jì)算機(jī)上來(lái)算,就差了300倍。通用和專用中間有很大的區(qū)別,如果我們能把專用芯片的優(yōu)勢(shì)發(fā)揮起來(lái),計(jì)算能力又能提高上百倍甚至更多,這是我們想做的工作之一。
你可能會(huì)問(wèn),計(jì)算機(jī)做了這么多年,怎么這么沒(méi)有效率,跟專用芯片一比就差了幾十倍,甚至幾百倍,為什么呢?因?yàn)橛?jì)算機(jī)今天的結(jié)構(gòu)都是沿用了50年代的結(jié)構(gòu),當(dāng)時(shí)沒(méi)有那么多計(jì)算元件,我用同一個(gè)元件執(zhí)行各種各樣的指令,所以這個(gè)流水線就很長(zhǎng)。我們計(jì)算了一下,這個(gè)流水線每一步的能耗。我們知道,要先把指令取來(lái),再分析一下,再把數(shù)據(jù)取來(lái)做計(jì)算,再擱回去。你可以看一下具體的,光取指令大概就有7%的能耗,或者8%的能耗,你再來(lái)解碼一下,看看是什么樣的指令,又花了6%,接下來(lái)可能有一些重新命名的指令,把名字更改一下要花12%,也可能其中一個(gè)數(shù)據(jù),現(xiàn)在還沒(méi)有計(jì)算出來(lái),要等一下,需要一個(gè)調(diào)度的過(guò)程,又要花11%,所以這個(gè)流水線非常復(fù)雜。正經(jīng)有用的,做個(gè)加法,或者做個(gè)乘法,這些很簡(jiǎn)單的數(shù)字或者邏輯計(jì)算,都要很多消耗。為了通用,處理器不是那么有效,這是我們今天為什么有這么多提升空間的原因。
我們?cè)撛趺醋瞿??我們的提議是,不要用通用的處理器,用各種各樣的加速器,加速器是不能干太多的事,但是能夠把一件事干得特別好。我們有一個(gè)提議,你要有很多的,或者是專用的,或者是可組合的加速器,把它擱在一起,絕大多數(shù)計(jì)算都應(yīng)該在加速器上實(shí)現(xiàn),而不是在處理器上。剛才我舉了例子,加密要用一個(gè)加密的加速器實(shí)現(xiàn),它的效率有幾十倍、幾百倍的提高。你可能說(shuō),為什么你現(xiàn)在提這么個(gè)概念,以前不用這個(gè)辦法呢?這也是一個(gè)很好的問(wèn)題,因?yàn)橐郧拔覀儧](méi)有那么多的晶體管,我不可能做這么多的加速器,因?yàn)槲乙鲞@么多加速器,我芯片里就擱不下了。今天是完全不一樣的問(wèn)題。我們每個(gè)人手里都有幾十億晶體管的芯片,非常龐大,困難的是沒(méi)有足夠的功耗支持,所以是完全不同的問(wèn)題。
早期的計(jì)算機(jī)要通用,因?yàn)闆](méi)有那么多元件,算下來(lái)有幾百個(gè),幾千個(gè),幾萬(wàn)個(gè),今天有幾億個(gè),幾十億個(gè)甚至上百億個(gè),所以要專用,這就是區(qū)別。
還有一個(gè)啟示,我們看一下自然界的發(fā)展,一個(gè)是看看我們自己的人腦。人腦很有意思,我跟一些搞神經(jīng)科學(xué)的專家有過(guò)探討。我說(shuō)你告訴我,我們?cè)趺醋鲇?jì)算?有沒(méi)有這么一個(gè)流水線在那執(zhí)行指令,一個(gè)接一個(gè)的,他說(shuō)我們沒(méi)找到。但是確實(shí)我們看到腦子里有各種各樣的區(qū)域,有的區(qū)域是管情緒的,有的區(qū)域是管語(yǔ)言的,有的區(qū)域是管圖像識(shí)別的,而且管語(yǔ)言的還挺復(fù)雜,有時(shí)候管中文,有時(shí)候管英文的。確實(shí)有一個(gè)例子,一個(gè)人本來(lái)能同時(shí)講中文和英文,后來(lái)有了創(chuàng)傷,他不能講中文,能講英文,說(shuō)明他各個(gè)區(qū)域是管不同的事,所以這是我們?nèi)四X的有效性,因?yàn)橛懈鞣N各樣的加速器,把計(jì)算做得非常有效。我們的大腦大概是一個(gè)最暗的電燈,20瓦的耗電就可以干這么多事。
另外,社會(huì)發(fā)展也是同樣的道理。早期我們的祖先都是在打獵,后來(lái)慢慢就有分工了,到現(xiàn)在的社會(huì)就有醫(yī)生、律師、教授、計(jì)算機(jī)科學(xué)家。現(xiàn)在的社會(huì)分工也是非常明確的,這也提高了計(jì)算的有效性。
怎么做這樣一個(gè)可以定制的芯片?其實(shí)有不少的例子。有一個(gè)比較有效的芯片,我們一直用的叫FPGA(field-programmablegatearray,現(xiàn)場(chǎng)可編程邏輯陣列)。這里面有一些可定制的邏輯,而且有各種各樣的存儲(chǔ)器,還有可編程的互聯(lián)。這就是一個(gè)很神奇的芯片,你可以買回來(lái)擱在你家里或者書桌上,你可以不停地改寫成各種各樣的芯片,做各種各樣的事情。你說(shuō)這個(gè)怎么可能,為什么能有這樣的?其實(shí)原理很簡(jiǎn)單,他有一個(gè)查值表,還有一個(gè)傳輸?shù)木w管和多路選擇器,決定怎么做互聯(lián)?;ヂ?lián)的時(shí)候可以讓你走,可以不讓你走。我選哪個(gè)輸入,哪個(gè)輸出,通過(guò)一個(gè)查值表,可以把各種各樣的功能都實(shí)現(xiàn)了。這個(gè)聽起來(lái)有點(diǎn)玄乎,你說(shuō)怎么能有這么神奇的東西,有一個(gè)查值表,可以把世界上所有邏輯的函數(shù)都實(shí)現(xiàn)了呢?其實(shí)不難。我們小時(shí)候做乘法的時(shí)候,很多時(shí)候不會(huì)做乘法,就會(huì)背一個(gè)九九表,這個(gè)表實(shí)際上定義了乘法運(yùn)算。如果我把這個(gè)表改一下,三三得九,我把它改成六,我就是在做加法運(yùn)算,但是我不能只改這一個(gè)地方,我要把整個(gè)表改了,這個(gè)表可以定義加法。我可以改成更復(fù)雜的,比如我定義成(A×B)-(A+B),如果我把這個(gè)表全都改成這樣一個(gè)東西,這個(gè)表實(shí)際上就實(shí)現(xiàn)了這么一個(gè)比較復(fù)雜的函數(shù)。通過(guò)這樣一個(gè)查值表,我可以實(shí)現(xiàn)各種各樣的函數(shù)。有了這個(gè)之后我可以用它做各種各樣的計(jì)算。其中有一個(gè)例子我們最近做的比較成功,加速DNA的測(cè)序。這是大家很感興趣的問(wèn)題,精準(zhǔn)醫(yī)療。
定制計(jì)算的應(yīng)用廣闊
原來(lái)我去看病,老中醫(yī)號(hào)號(hào)脈,我也不知道他怎么算出來(lái)的,拿給我24副中藥,現(xiàn)在最起碼在西方是精準(zhǔn)醫(yī)療,和DNA測(cè)序有關(guān)的。你跟我都有30億個(gè)DNA的堿基序列,這個(gè)每個(gè)人都不太一樣,完全是因人而異。按照這個(gè)序列有什么樣的特性,決定用什么藥,甚至有人不幸得了癌癥,可能因?yàn)橥蛔?,也是根?jù)突變決定用什么藥。測(cè)序過(guò)程非常復(fù)雜,測(cè)序測(cè)出來(lái),不能一下子測(cè)出30億個(gè)序列,只能一次測(cè)一百個(gè),他測(cè)了一大堆很短的序列,我們的任務(wù)是要把這些序列組合起來(lái)。像小時(shí)候我們玩的一個(gè)拼圖游戲,有50個(gè)片,要把那些小片片拼出來(lái)。把整個(gè)序列找出來(lái),這是計(jì)算量非常之大的工作,你可以看出來(lái)測(cè)序一出來(lái)之后,大概有300到500個(gè)GB(1GB等于十的九次方)。我有一個(gè)30億的參考序列,你跟我可能有點(diǎn)不太一樣,所以你要再重新排一下,看出有什么區(qū)別。數(shù)據(jù)量之大,計(jì)算量也非常之大。我們把這個(gè)做到了FPGA上,每個(gè)單元做這個(gè)事情,把序列做比較,算出差異。我們組織起來(lái)有兩個(gè)層次,有第一個(gè)陣列還有若干陣列,最后我跟最先進(jìn)的測(cè)序的儀器結(jié)合在一起,這個(gè)效率還是蠻高的?,F(xiàn)在是多核的程序,跟一個(gè)核的處理器比,我們大概提高了300多倍計(jì)算的速度。今天市場(chǎng)上買到是多核的處理器,即使跟24核處理器比我們也有3倍的提高。我們用可編程的技術(shù)做成一個(gè)專用的芯片,這個(gè)芯片不能干別的事,只能做DNA排序,但是排出來(lái)之后比通用計(jì)算機(jī)做出來(lái)的效率高很多。我們有一個(gè)個(gè)性化定制的癌癥突變治療,癌癥開始了以后有突變,突變以后你要找到對(duì)癥下藥,這方面有很重大的突破。小時(shí)候我們看電視據(jù)說(shuō)一個(gè)人得了白血病肯定就不行了,但是其中有20%的白血病,今天基本上百分之百治愈。辦法就是找到藥把突變的一點(diǎn)卡住了,癌細(xì)胞就不能復(fù)制了,對(duì)那一類白血病非常有用。
我跟做那個(gè)方面的科學(xué)家聊過(guò),癌細(xì)胞也很聰明,你把這一塊卡住,我就變變變,別的地方出來(lái),這是一個(gè)貓捉老鼠的游戲。這個(gè)藥做得比較快,我們有這么一個(gè)過(guò)程,不是用一個(gè)處理器,可以用一堆處理器。另外,還有一些癌癥我們不知道是哪個(gè)基因突變,不是拿一個(gè)基因,要拿上千的基因。剛開始做基因測(cè)序的時(shí)候,光是計(jì)算這一步,用最快的英特爾處理器要用170個(gè)小時(shí),170個(gè)小時(shí)基本上是一個(gè)星期,這還是速度很慢的,現(xiàn)在基本上可以加速到4、5個(gè)小時(shí),像驗(yàn)血一樣,當(dāng)天就可以知道結(jié)果。
說(shuō)到這一點(diǎn),可能有的同學(xué)就想這個(gè)技術(shù)太有意思了,我要用到它,要用它必須解決一個(gè)問(wèn)題,怎么設(shè)計(jì)?剛才我講到今天的設(shè)計(jì)就是你寫軟件,把它分解成指令集,在硬件上執(zhí)行。你現(xiàn)在有了FPGA,有成千上萬(wàn)的邏輯單元,指令集在哪兒?其實(shí)是沒(méi)有指令集。把一個(gè)很復(fù)雜的計(jì)算分解成各種各樣的運(yùn)算,邏輯的單元在這上面能進(jìn)行運(yùn)算,這是一個(gè)非常困難的事情。寫軟件的你或者用C,用C++或者JAVA,寫硬件的就是鳳毛麟角了。我們做了這么一個(gè)工作,設(shè)計(jì)FPGA太難了,讓可以寫軟件的人自動(dòng)設(shè)計(jì)FPGA。我們用自動(dòng)編輯原理,做了一個(gè)編譯系統(tǒng),你從傳統(tǒng)的軟件開始,我們生成硬件的描述語(yǔ)言。這個(gè)還是很成功的,工業(yè)界不少人用這個(gè)東西。我們成立一個(gè)創(chuàng)業(yè)公司AutoESL,有不少公司用這個(gè)公司的產(chǎn)品。谷歌有一個(gè)很好的功能,可以查一查所有的論文有哪些在應(yīng)用這個(gè)詞,我們查了一下,光論文有1700個(gè),所以工業(yè)界還是非常普遍地運(yùn)用了這個(gè)技術(shù)。
但是,我們?cè)O(shè)計(jì)這個(gè)工具的時(shí)候,十年前的出發(fā)點(diǎn)是考慮讓芯片的設(shè)計(jì)者更容易一些,他不用寫這么繁瑣的硬件描述語(yǔ)言,只需要寫軟件。但是今天我們想讓他做計(jì)算還是不夠的,因?yàn)橛?jì)算時(shí)候必須把處理器、CPU和FPGA同時(shí)用到,我們有一個(gè)新的軟件開發(fā)了CMOST,其中你給我一個(gè)程序,我決定哪一部分在硬件,哪一部分在軟件,數(shù)據(jù)怎么傳輸,怎么共享內(nèi)存,有一系列的工作。這個(gè)工作也做得很不錯(cuò),不但學(xué)術(shù)界認(rèn)可,我們很多工業(yè)界的朋友也想用。我們又成立另外一家創(chuàng)業(yè)公司。這是很有效的軟件,你就寫C程序,進(jìn)來(lái)以后自動(dòng)一部分?jǐn)R在CPU運(yùn)行,一部分?jǐn)R在處理器上運(yùn)行,給你很大的加速?,F(xiàn)在大家聽到很多的詞如深度學(xué)習(xí)。深度學(xué)習(xí)可以干的事還真不少,比如我的中文雖說(shuō)得不那么好,尤其中文字忘了很多,但是我手機(jī)微信上還可以回中文,完全是靠語(yǔ)音識(shí)別。我跟微信講,我今天下午4點(diǎn)鐘會(huì)議結(jié)束,他就會(huì)打出中文來(lái),這個(gè)語(yǔ)音識(shí)別的過(guò)程全是用深度學(xué)習(xí)的技術(shù)。圖像識(shí)別,也是用深度學(xué)習(xí)。深度學(xué)習(xí)是什么技術(shù),其實(shí)用了多層的神經(jīng)網(wǎng)絡(luò),這個(gè)神經(jīng)網(wǎng)絡(luò)里面做的是卷積的計(jì)算,你進(jìn)來(lái)之后,第一副圖像很簡(jiǎn)單,RGB,但是我在里面再做一個(gè)卷積,提取更多特征的值出來(lái),我一層一層提取,做卷積,除了做卷積還有別的邏輯運(yùn)算,取一個(gè)最大值,或者在最后再做一個(gè)分類。這個(gè)事情你也可以用計(jì)算機(jī)做,但是用計(jì)算機(jī)做不太有效,這個(gè)事情既然你那么常用——我們不停做語(yǔ)音識(shí)別,不停做圖像識(shí)別,我們想可以用FPGA可以做一個(gè)加速的芯片。今天用軟件描述一下你想做的神經(jīng)網(wǎng)絡(luò),這個(gè)神經(jīng)網(wǎng)絡(luò)有多個(gè)層次,每個(gè)層次有多少個(gè)神經(jīng)源,講清楚之后,我們給你自動(dòng)生成脈沖陣列。這里有一個(gè)很有意思的特點(diǎn),我只需要跟我的左右手的人互相通信息,這是很不容易的。今天如果要打電話給很遠(yuǎn)的朋友或者親戚,能不能跟你鄰接的人通訊就可以把這個(gè)事情干成?我們做出來(lái)一個(gè)芯片,只需要把你鄰接的人交換信息就可以把數(shù)據(jù)傳遞。這個(gè)芯片有很多優(yōu)良的特點(diǎn),能耗、計(jì)算速度都會(huì)有提高。我們做出來(lái)以后跟最好的處理器結(jié)合,我們的速度可以提高46倍,功率可以降低2倍,能耗降低了100多倍,這又是一個(gè)很好的例子,通用和專用的區(qū)別。這個(gè)專用其實(shí)還有人可以做得更好,你可以設(shè)計(jì)一個(gè)專用的芯片。但是我們這個(gè)是用FPGA做出來(lái)的,你還可以改變它的功能。
FPGA也不是唯一的可以用來(lái)加速的元件,我們?cè)诩又荽髮W(xué)洛杉磯分校還做了別的工作,我們用了可重組的加速器做新的處理器。這里我有很多可以加速的單元,這個(gè)單元要比我剛才講的查值表要復(fù)雜很多,我可以用互聯(lián)的交互性連起來(lái),你需要什么樣的,比如要做一個(gè)開根號(hào)的運(yùn)算,或者除法的運(yùn)算,我們可以把一些加速單元組合起來(lái)做這個(gè)事情,我們可以在醫(yī)學(xué)成像加速上有很大的提高,大概幾十倍,上百倍的提高,而且有足夠多的靈活性,用于不同的應(yīng)用。如果你有一些加速單元,如果忘了一些很重要的加速單元怎么辦,那也沒(méi)關(guān)系,我們這里又加了一些細(xì)膩度很高的可編程軟件,像FPGA元件一樣,你可以通過(guò)它生成我們需要的加速單元,這樣可以做進(jìn)一步的計(jì)算。
值得一提的是,2014年IBM公司做了一個(gè)神經(jīng)網(wǎng)絡(luò)加速器,這個(gè)神經(jīng)網(wǎng)絡(luò)跟我剛才說(shuō)的卷積計(jì)算不一樣,卷積計(jì)算是人工智能的辦法。我不覺(jué)得我們腦子在不停地做卷積計(jì)算,如果不停地做卷積計(jì)算兩分鐘以后就摔倒了,能耗就用完了。IBM的結(jié)果有點(diǎn)像我們大腦里的神經(jīng)網(wǎng)絡(luò)的計(jì)算,以脈沖形式的,看到信號(hào)才發(fā)一個(gè)脈沖,有這個(gè)脈沖才可以激活若干個(gè)神經(jīng)單元,不是每一個(gè)使用段都在不停做計(jì)算,所以它的能耗非常低,只有20個(gè)微瓦,而且它的集成度很高,4.5萬(wàn)個(gè)晶體管在芯片上,所以是一個(gè)很好的加速器。
有一個(gè)很重要的問(wèn)題,各種各樣的加速器,哪個(gè)加速器更好?說(shuō)到各種各樣的加速器,我覺(jué)得很重要的一點(diǎn)就是我做完了之后可以重新用在別的應(yīng)用上,也可能我剛開始的想法不夠完善,剛開始的軟件不夠精煉,但是我可以用來(lái)做各種各樣的事情。
我想對(duì)剛要開始科學(xué)生涯的同學(xué)們說(shuō)一下,你并不是生不逢時(shí),有各種各樣的機(jī)會(huì)可以做。第一個(gè),可定制的,可重構(gòu)的體系結(jié)構(gòu),可以用來(lái)做各種各樣的加速器。我沒(méi)講的,其實(shí)我們也做過(guò)很多應(yīng)用,今天的集成電路都是二維的,邏輯都是擱在一個(gè)平面上,互聯(lián)可能有若干層,但是我們十多年前做過(guò)很多的考慮,比如三維的電路。我剛才提到了一點(diǎn),IBM的芯片,那個(gè)性能還是非常驚人的,我們能不能做成一個(gè)類腦芯片,跟我們腦子結(jié)構(gòu)和工作原理比較接近的,那個(gè)絕對(duì)不是我們今天說(shuō)的FPGA,我覺(jué)得應(yīng)該是別的體系結(jié)構(gòu)。再扯得遠(yuǎn)一點(diǎn),大家也聽到一個(gè)詞“量子計(jì)算”,量子計(jì)算提供了非常誘人的選擇。我歡迎所有的同學(xué)們來(lái)到一個(gè)新的計(jì)算新紀(jì)元。(文/叢京生(美國(guó)加州大學(xué)計(jì)算機(jī)系校長(zhǎng)講席教授、電子工程系教授) 整理 /邸利會(huì))
演講者簡(jiǎn)介
叢京生 Jason Cong
北京大學(xué)高能效計(jì)算與應(yīng)用中心主任
北京大學(xué)信息科學(xué)技術(shù)學(xué)院千人計(jì)劃客座教授
北京大學(xué)-洛杉磯加州大學(xué)理工聯(lián)合研究所聯(lián)合主任
加州大學(xué)洛杉磯分校計(jì)算機(jī)系校長(zhǎng)講席教授
加州大學(xué)洛杉磯分校協(xié)理教務(wù)長(zhǎng)
VAST實(shí)驗(yàn)室主任(原VLSI CAD實(shí)驗(yàn)室)
本頁(yè)刊發(fā)內(nèi)容未經(jīng)書面許可禁止轉(zhuǎn)載及使用