電資學院師生參與 2022 Eighth Frederick Jelinek Memorial Summer Workshop

2022 年 6 月到 8 月間本系李宏毅副教授帶領電資學院學生參與 2022 Eighth Frederick Jelinek Memorial Summer Workshop (以下簡稱 JSALT) ,與國際團隊建立緊密的合作關係並取得不少語音處理領域的研究突破,本文在專訪李宏毅副教授後撰寫而成。

JSALT簡介

JSALT是語音處理領域每年一度的重要活動,目標是集合語音領域的學者共同攻克這個社群大家覺得重要且具挑戰性的問題。JSALT始於 1995 年,由約翰霍普金斯大學 (The Johns Hopkins University, JHU) 的 Center for Language and Speech Processing (CSLP) 所發起,近幾年的傳統是一年由CSLP主辦、一年由其他語音團隊主辦,很多語音領域今天被廣泛使用的技術和工具,例如:語音辨識最知名的工具Kaldi、翻譯常用的工具Moses、語者辨識常用的技術i-vector 等都曾經在 JSALT 進行開發。2022 年的 JSALT 由CSLP主辦,並獲得 Amazon、Google、Microsoft 的贊助。

提出研究構想

每年暑假的 JSALT 始於前一年 10 月的提案,「雖然JSALT 的計畫構想書只需要繳交一頁文件,但是審查的過程卻非常艱辛」李宏毅副教授表示,審查的過程是一個長達三日的研討會,JSALT 2022 年的審查研討會有三十四位評審委員參與,其中十二位來自學界、二十位來自業界、兩位來自美國政府,評審委員會對於提案給予建議和評價,並投票表決是否支持該提案執行。每一個提案都會有三次報告的機會,前兩次報告後可以修改提案內容,由最後一次投票的評審委員支持度決定是否執行計畫。2022 年的 JSALT 共有12個提案,只有前三高票的提案可以被執行。

李宏毅副教授提出的計畫名稱是《Leveraging Pre-Training Models for Speech Processing》,所謂的Pre-Training Models其實就是自督導式學習 (Self-supervised Learning),自督導式學習是甚麼呢?以語音辨識為例,一般要訓練語音辨識系統不只是需要蒐集大量的語音訊號,還要對這些語音訊號標註對應的文字讓機器學習,這種需要標註的學習方式稱之為督導式學習(Supervised Learning)。督導式學習限制了今日AI的使用範圍。機器需要標註才能學習,而人類小孩卻在幾乎沒有標註資料的情況下就學會了人類語言,機器能不能做到同樣的事情呢?自督導式學習的目標是機器只要在日常生活中聽人們對話、上網看大量的影片,對於人類的語音訊號有本質上的理解,接下來當開發者要機器學習某個和語音處理相關的特定任務 (這些特定任務又稱為下游任務,Downstream Task,例如:語音辨識、語者驗證)。機器只需要有少量與下游任務相關的標註資料,就可以迅速的學會原本需要大量標註資料才能學會的任務。李宏毅副教授的提案順利獲得多數評審委員的支持,成為可以執行的三個提案之一。除了李副教授的提案外,另外兩個獲得執行的提案分別是 Anthony Larcher博士的《Speech Translation for Under-Resourced Languages 》,主攻語音翻譯;以及Ahmed Ali 博士的《Multilingual and Code-Switching Speech Recognition》,研究主題是多語音交雜的語音辨識。

計畫執行過程

計畫提案通過後,提案人就會成為計畫的領隊 (Team Lead),領隊的任務是組織團隊並帶領團隊於暑假在約翰霍普金斯大學執行計畫,李宏毅副教授團隊成員包含了來自台灣大學、愛丁堡大學、德州大學奧斯汀分校、德州大學埃爾帕索分校、卡内基梅隆大学、約翰霍普金斯大學、新加坡科技研究局、新加坡國立大學、賓夕法尼亞州立大學、馬里蘭大學、麻省理工學院、Meta、Sonos、LISN、Google的研究人員、教授、學生,部分成員實際前往約翰霍普金斯大學,而部分則線上參與研究,完整團隊成員姓名請見以下網站:https://jsalt-2022-ssl.github.io/。2022 年的 JSALT 進行的時間為 6 月 27 日到 8 月 5 日,總計六週,最終團隊有以下成果:

  • 今日自督導式學習模型越來越大,雖然越大的模型往往表現越好,但也導致其難以被使用在邊緣設備(Edge Device)上,團隊進行了一系列模型壓縮的嘗試,開發出在 SUPERB 基準資料集 (該資料集用以評估語音自督導式學習模型的表現) 上最小的自督導式學習模型,且其表現比過去最小的模型 (Modified CPC、由 Meta 開發) 還要好。
  • 團隊發現自督導式學習模型在壓縮後強健性較低,也就是在有雜訊的語音上容易表現不佳,所以團隊又開發新技術解決強健性問題,使壓縮後的模型可以被用在有大量背景雜訊干擾的語音上。
  • 要如何把自督導式學習模型用在下游任務上是一個關鍵的問題,但過去在語音上的研究卻非常少,因此團隊開發出各種有效利用自督導式學習模型的方法。
  • 人類在學習語音的時候,不是只有聽,還包含了看與閱讀,但至今多數語音自督導式學習模型在學習時仍只利用了語音的資訊,因此團隊嘗試使用文字與影像等多模態資訊強化語音自督導式學習。
  • 團隊發現自督導式學習模型對於韻律(Prosody)資訊的抽取有極好的能力,並使用自督導式學習模型在情感辨識、反諷辨識、說服力辨識等數個需要運用韻律資訊的任務得到最先進水平 (State-of-the-art)。

李副教授的團隊中臺灣大學的學生其實占了多數,但因為 JSALT可以支持實際前往當地的學生經費有限,所以台灣大學是以台大電信所博士生楊書文同學為代表前往約翰霍普金斯,楊書文同學在 JSALT 對於過去和台大語音處理實驗室其他同學開發的自督導式學習工具 S3PRL (https://github.com/s3prl/s3prl) 做了大幅的改進,因為這個工具使用者非常多,所以改進這件工具非常有意義。

結語

整個團隊最後總共發表了 7 篇論文,其中 2 篇已經在 2022 年 9 月舉辦的語音領域旗艦會議 Interspeech 2022 發表,另外 5 篇已經被 SLT 2022 所接受 (Interspeech、ICASSP、SLT/ASRU 為語音領域公認最好的三個國際會議,SLT在偶數年舉辦、ASRU在奇數年舉辦)。李宏毅副教授表示:「因為六週不長,所以這次在 JSALT 的成果不是結束,只能說是開始,目前團隊仍在繼續合作,希望可以開發出更好的自督導式學習模型。」另一方面,今日AI相關研究往往需要大量的運算資源,例如在JSALT 的團隊中,Anthony Larcher博士的團隊是由歐盟支持,從法國政府那裡得到了免費且沒有上限的運算資源。提到運算資源時,李副教授表示還要特別感謝台智雲贊助運算資源,沒有台智雲贊助運算資源,不可能有上述豐碩的成果。最後李副教授強調:「這次研究主要是由台大師生和國外學者共同完成,而台大學生在計畫中扮演了最核心的執行腳色,本次的成果展現台灣大學學生的研究能量,以及平日紮實的訓練。」

更多相關資訊請見以下網站:

團隊官網:https://jsalt-2022-ssl.github.io/

JSALT 官網:https://www.clsp.jhu.edu/2022-eighth-frederick-jelinek-memorial-summer-workshop/

李宏毅,本校2012 Ph.D.   個人網頁 https://speech.ee.ntu.edu.tw/~hylee/index.php