計(jì)算領(lǐng)域迎來“寒武紀(jì)大爆發(fā)”
大約5.41億年前,也就是地球歷史上的寒武紀(jì)時(shí)期,生命類型的急劇增加孕育了不少到現(xiàn)在還存活著的、或者已經(jīng)滅亡了的生物家族。這是對(duì)生物形式和生態(tài)環(huán)境的一個(gè)巨大實(shí)驗(yàn)時(shí)期,考驗(yàn)這些生物能否在一個(gè)更有活力的新生態(tài)系統(tǒng)中生存成長(zhǎng)。
如今,計(jì)算處理能力的增長(zhǎng)速度(也被稱為摩爾定律)正在放緩,物聯(lián)網(wǎng)和大數(shù)據(jù)對(duì)處理海量數(shù)據(jù)的需求不斷增加,引發(fā)了“計(jì)算領(lǐng)域的寒武紀(jì)大爆發(fā)”,催生了新一代邏輯、內(nèi)存和存儲(chǔ)設(shè)計(jì),包括小芯片(Chipilet)、多芯片堆疊異構(gòu)設(shè)備和加速器芯片等。
英特爾和AMD都在致力于將單片處理器分解為專用芯片,也就是Chiplet(較小的專用芯片),可以在多芯片模塊上協(xié)同工作。兩家廠商都極力追求更小尺寸的光刻工藝,但采用10納米以下工藝制造的芯片可能會(huì)出現(xiàn)更多錯(cuò)誤,讓生產(chǎn)質(zhì)量變得更加糟糕。出于這個(gè)原因,英特爾和AMD將小型光刻工藝集中在專用芯片上。對(duì)于AMD而言,最小7納米的工藝用于制造更高密度的CPU核心,而各種采用了最小14納米工藝的小芯片可針對(duì)其他用途。
英特爾宣布推出的Foveros Project將采用10納米工藝,以實(shí)現(xiàn)節(jié)能的目的,而為新芯片采用14納米工藝, 以滿足其他更高功率的要求。英特爾表示,采用這種設(shè)計(jì)的Lakefield產(chǎn)品將于2019年下半年面市。
來自美國桑迪亞國家實(shí)驗(yàn)室的Arun Rodrigues在2019 Salishan Conference on High Speed Computing Conference大會(huì)上發(fā)表了題為《Hererogeneous Accelerators of the Memory, by the Memory, and for the Memory》的演講。他說,我們正在進(jìn)入一個(gè)極端的半導(dǎo)體異構(gòu)時(shí)代,有很多采用專有處理器芯片的可能性和解決方案(通常被稱為加速器)。
他指出,傳統(tǒng)的計(jì)算方法并不能很好地管理內(nèi)存。主內(nèi)存(特別是分層內(nèi)存)速度很慢,緩存效率低下,處理器遠(yuǎn)離需要處理的數(shù)據(jù)。隨著摩爾定律的放緩,把單片芯片的處理任務(wù)分解到多個(gè)位置的專用芯片上的這一做法變得越來越流行。此外,支持ARM或RISC-V處理的基礎(chǔ)設(shè)施也讓這一點(diǎn)更容易實(shí)現(xiàn)、成本更低。
多個(gè)美國國家實(shí)驗(yàn)室已經(jīng)就如何推動(dòng)加速器的使用展開了代號(hào)“Project 38”的合作。該項(xiàng)目的一個(gè)關(guān)鍵特點(diǎn)就是所謂的分散/聚集(scatter/gather)架構(gòu)。分散/聚集I/O也稱為向量I/O,這種I/O方法讓單個(gè)處理器從多個(gè)緩沖區(qū)順序讀取數(shù)據(jù)再寫入到單個(gè)數(shù)據(jù)流,或者從一個(gè)數(shù)據(jù)流中讀取數(shù)據(jù)再寫入到多個(gè)緩沖區(qū)。分散/聚集指的是從給定緩沖區(qū)收集數(shù)據(jù)、或者將數(shù)據(jù)分散到這些緩沖區(qū)的過程。向量化I/O是非常有效且方便的,下面的幻燈片展示了這種概念在實(shí)踐中的使用。
分散/聚集架構(gòu)
分散/聚集操作在Scrachpad中完成(卸載)。Scrachpa中的數(shù)據(jù)可以重復(fù)使用,卸載了對(duì)數(shù)據(jù)的大量整數(shù)操作。如果將數(shù)據(jù)放入高速緩存中的話,還可以讓這種方法變得更高效。在分析和仿真實(shí)踐中,發(fā)現(xiàn)性能提高了15-28%,緩存未命中率降低,緩存性能提高。這種方法還可以實(shí)現(xiàn)內(nèi)存內(nèi)部的大量操作,從而提高整體性能。Arun還舉例說明了這種方法給Spiking Neural Network案例帶來的改善效果。
他提到了多級(jí)存儲(chǔ)器的優(yōu)點(diǎn)和需要權(quán)衡哪些方面,以提供更有效的帶寬,但為了控制成本,就需要對(duì)多個(gè)內(nèi)存進(jìn)行有效的管理。他認(rèn)為,自動(dòng)塊級(jí)交換(一種硬件輔助內(nèi)存管理方法,參見下面的幻燈片)可以實(shí)現(xiàn)這種內(nèi)存管理,而且有證據(jù)證明這種方法是有效的。
多級(jí)內(nèi)存管理方法
Arun指出,這種方法最大的障礙在于軟件。研究人員正在致力于使用可以擴(kuò)展到其他加速器的GPU(一種特殊類型的過程加速器),此外還需要同步、數(shù)據(jù)編組、線程管理等硬件方面的輔助。
除了專用加速器芯片(GPU、TPU、IPU和其他專用、通常是FPGA支持的器件)越來越豐富之外,我們也看到業(yè)界正在越來越多地改善這項(xiàng)技術(shù)來堆疊半導(dǎo)體芯片——通常是在每個(gè)芯片上堆疊不同類型的器件,特別是針對(duì)嵌入式應(yīng)用和高性能計(jì)算應(yīng)用,而且互連密度也在不斷提高。這催生了很多非常有趣的結(jié)構(gòu),正如另一位發(fā)言人來自NHanced Semiconductors的Robert Patti所展示的,這種異構(gòu)性(他稱之為L(zhǎng)amdaFabri)會(huì)導(dǎo)致系統(tǒng)變得很復(fù)雜, 他的目標(biāo)是打造一個(gè)合成的量子計(jì)算系統(tǒng)。
系統(tǒng)級(jí)異構(gòu)集成
邏輯電路不斷擴(kuò)展所面臨的局限性,導(dǎo)致了設(shè)計(jì)和采用邏輯及內(nèi)存電路這些新方法的“寒武紀(jì)大爆發(fā)”,催生了可應(yīng)對(duì)工業(yè)物聯(lián)網(wǎng)、消費(fèi)者物聯(lián)網(wǎng)、智慧城市、和針對(duì)AI分析的大數(shù)據(jù)的新一代系統(tǒng)。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
