Heterogeneous Integration and Memory Technology in the AI Age – 陳文良董事長演講紀實

馬唯傑、趙彥安 紀錄

 

 

主題:Heterogeneous Integration(異質整合) and Memory Technology in the AI Age

講者:愛普科技股份有限公司 陳文良 董事長

日期:2022 年 11 月 09 日 (三) 下午 3:30~5:20

地 點:臺灣大學博理館101演講廳

 

前言:

陳文良博士(耶魯大學92年博士)是AP Memory Technology Corporation 的創始人、總裁、CEO和CTO,該公司專注於客制DRAM解決方案。陳博士於1992年畢業於耶魯大學工程學院,獲得應用物理學博士學位,他的畢業作品獲得了 Harding Bliss Prize。陳博士在Intel開始他的職業生涯,在製程技術開發到 CPU 產品設計的領域擔任技術和管理職位。

自2001年以來,陳博士一直是技術創新者和連續創業家,他的第一家創業公司在僅兩年就實現盈利,並且在2004年被Cypress Semiconductor收購。隨後他參與了多家已被收購的新創公司,他最新的創業公司AP Memory成立於2011年,並於2016年在台灣證券交易所公開上市。

本次陳博士將介紹傳統硬體在做ML運算時面臨的瓶頸,以及memory在現代AI面臨的挑戰和潛在的解決方案。

半導體發展

在過去的50年裡,半導體壓縮進入指數級增長,而相比之下,內存延遲和帶寬的改善非常緩慢。直到現在,計算機架構師已經設法圍繞這個內存速度問題進行創新。人工智能計算需要移動大量數據,這需要比傳統計算所需的內存帶寬高幾個數量級,大數據的移動也消耗一定功率。這個問題的解決方案是將內存和邏輯集成到同一晶片中,但這已被證明是不切實際的,唯一可行的解​​決方案是將邏輯和存儲晶圓粘合在一起,稱為異質整合。

異質整合

異質整合將至少兩個不同技術功能的晶圓整合在一起,比如將邏輯單元和記憶體鑲嵌在同一板子上。如果將CPU和memory放在一起,ML運算的weights便能更快的從memory傳到CPU,既能節省時間又能節約功耗。

DRAM performance

(左)相對於CPU,我們對DRAM的要求是希望他能在礦大容量的同時保持便宜,加上這是通用的產品,市場競爭者少,因此Dram latency在過去20年幾乎沒有顯著變化,與此相對其bandwidth和容量則大量提升。

(右)因為SRAM和cache技術的進步,和電晶體製成的發展,CPU速度能繼續增加。

 

AI performance on memory

由於製程技術進步讓邏輯運算時間縮短,也讓單一面積能塞的電晶體數量越來越多,加上新的技術出現,人們從CPU到GPU,再從GPU到TPU,因為AI的模型為了更精準的accuracy而越來越大,memory bandwidth開始取代原本的邏輯運算成為AI運算的瓶頸。

AI運算可以簡單想成是由輸入乘以權重後得到輸出,而權重(weights)是儲存在memory裡,意味每次運算都需要和memory溝通,而單一時間能獲得多少weights便是bandwidth。

陳博士舉例,DDR4目前的bandwidth為8GB/s,但AI的需求為>200GB/s,因此還有許多進步的空間。

對大模型來說現在有兩種常見的連接方式:內接SRAM和外接DRAM。DRAM的容量是SRAM的10~20倍,價格也便宜許多,缺點是資料寫讀latency較長,SRAM較為在意performance。

 

HBM (High Bandwidth Memory)

HBM可以說是進化版的DRAM,以更先進的製程技術鑲嵌電機體和繞線。不像DRAM可以拔下來,由於更複雜的線路,HBM基本上是無法拆卸的。此外,由於HBM的體積和功耗因素,在PCB上放8顆便是極限。

 

PCB塞不下的解決方法

傳統整合是將所有單元平舖在PCB上,現在有許多開始採用2.5D:將memory往上堆疊來節省平面空間,如此也可以節省線路繞線。甚至公司正在朝3D發展,意味將盡量將元件像蓋公寓般全部疊起來,如此一來線路連接數量將可以達到2.5D的平方!例如wafer-on-wafer(WOW), chip-on-wafer(COW)。這個目前會碰到散熱問題,AP現在也在研究利用WOW將DRAM和其他元件連接。

 

AP應用

AP正在致力於研究logic + memory的WOW,並將研究結果應用在商業上,例如以太幣挖礦。陳博士表示他們的這項技術能更同時兼具bandwidth的大量提升,又能有效降低功耗(因為將logic和memory排很近)。目前的設計大多是一個memory和多個logic元件相接,而陳博士預測,未來將會有可能實現一個logic元件和一個memory 對接。

 

結語

陳博士分享了硬體架構的設計重點和現今的趨勢,從CPU到AI運算再到異質整合,中間也提到memory的重要性。過去半個世紀CPU算例的提升遠大於memory bandwidth的成長,而AI要有好的performance其中的一項關鍵在於硬體的memory bandwidth,因此硬體要有相應的提升才能滿足AI越來越高的運算需求,這是IC產業的發展方向。行業也提供各種新方法來解決memory bandwidth和功耗限制,通過應用一些既有的封包既樹叢2D跨入2.5D,進一步進入3D封裝的時代。

 

馬唯傑,電信所碩士班研究生。趙彥安,電子所碩士班研究生。