黃語棠
人物介紹 :
楊子毅學長是台大電機系86級系友,在電信所時的老師是李琳山教授,因而走向機器學習,特別是關於自然語言處理NLP。目前在台灣人工智慧實驗室的人際互動組(Human Interaction)之擔任工程師,其領導的Speech Team目前擁有「雅婷逐字稿」和「雅婷文字轉語音」等產品。
雅婷逐字稿可將語音即時轉為文字檔(截自雅婷逐字稿官網)
不一樣的實驗室,不一樣的公司──台灣人工智慧實驗室
台灣人工智慧實驗室(以下簡稱實驗室)由杜奕瑾於2017年創辦,目前是一家百人規模的上市公司。然而,楊子毅指出實驗室與傳統公司的垂直結構相比架構較平,更像是一個「實驗室」,並由三大面向 : 健康照護、人際互動和智慧城市之中的各個小組構成,如人際互動中就有Music Team、NEWS Team和楊子毅系友所在的Speech Team。當成員對特定主題有興趣時,即會產生組別對其進行研究,再根據研究成果往產品發展。
實驗室與學界主要透過教授諮詢和論文進行聯繫。楊子毅認為教授們在實驗室扮演的角色類似於顧問,當開發過程遭遇問題時會請益教授,或與教授開會等。在人際互動組,自己合作的教授包括了本系的李宏毅教授,而NEWS組則和台大資訊系的陳縕儂教授等合作。而透過閱讀論文,則可接觸一些新的模型及技術,實驗室會對其是否有助產品商業化,或改善原有產品進行研究;然而,楊子毅也提到了許多學界的模型往往耗時、耗GPU大,這些則較不適合公司使用。
而實驗室亦有與政府合作的經驗,楊子毅所在的Speech Team曾與法務部和醫療院所合作,內容包括了醫療、司法場景的語音使用。而NEWS Team則在假新聞議題上與國家通訊傳播委員會(NCC)合作。而智慧城市組和醫療照護組則分別有無人機全台導覽的計畫,和腦部腫瘤斷層掃描的相關合作案。
楊子毅也指出了一些政商合作與就學時進行研究的不同之處,首先是應用面,由於產品必須可供個人、企業甚至政府實際運用;因此,需提升語音辨識引擎的速度和功能,像NLP中的GPT和BERT模型就不太適合。另外則是創新的部分,有別於研究室裡面有固定的corpus和benchmark,上市的產品由於用戶多樣化,同一個模型可能無法應對不同的corpus,因此蒐集客戶實際情境中的語音資料便相當重要。最後則是工程上的問題,如何能將以上模型需要修正之處自動化等。
在疫情期間,著名的台灣社交距離APP也是實驗室的產品。楊子毅提到杜亦瑾看到一些社會議題時,便會即時以公司的資源和技術做回應,這個APP的發想便是一例。此應用程式的概念並不複雜,且在偵測彼此是否有接觸的同時,也可保障隱私,而實作上也不困難,杜亦瑾覺得可以做,對台灣防疫也能有確實幫助,台灣社交距離APP便誕生了。過程中遇到比較大的問題反而是和疾管署溝通及推廣下載,因為此應用程式需要達到一定的下載量較有意義。
誰是「雅婷」?
雅婷逐字稿是實驗室很早便發行的產品,其取名源自於數位政委唐鳳的速錄師薛雅婷,杜奕瑾認為,此常見而有台灣味的名字,適合作為此純以台灣資料進行學習的語音辨識系統。一開始「雅婷」以字幕方式呈現,但後來發現大家會有會議和演講內容記錄的需求,因此後來便以逐字稿作為產品的運作模式。為了讓「雅婷」的應用面更廣,產品陸續加上了音檔上傳、字幕模式、影音平台串接等功能,以及多語言辨識,包含了中英夾雜和中台夾雜等,而許多實驗室的合作案也是以類似「雅婷」的概念出發。
開發「雅婷」的過程中,楊子毅認為遇到最大的挑戰來自於資料,因為在碩士班研究時,取得的語音資料多半是很乾淨的,就像讀稿機一樣;然而,如此模型在實際辨識很生活化的資料時,便會產生mismatch,因此需要不斷收集生活化的語料來豐富模型。其他挑戰則包括了功能改進與開發,除了須達到夠高的準確度之外,還得因應用戶要求開發時間點標註、語者辨識等,而實際使用上,也很難預料各用戶的使用方式,音源過遠、聲音過小、音檔格式怪異等都可能導致用戶反映準確度不高,工程師們必須針對抓出其中的問題並進行分析。
除了資料和用戶端的潛在問題外,也曾遇到開發的瓶頸。首先是標點符號的部分,一開始的模型嘗試過一些辦法,例如用語句停頓判斷標點符號,但事實上,許多人講話會有句中停頓的習慣,因此,最後則是訓練一個純文字輸入,再決定何處要加上標點符號的模型。此外,由於目前「雅婷」也支援台、英、日、粵等語言,開發者對這些語言的掌握度未若中文之高,因此無法及時進行修正,只能從使用者的反饋檢視。多語言的另一個問題是發音,例如中台混雜的模式中,台語語音所翻出來的詞彙可能歷經倒裝、順序和長短的變化,於一般中文使用者而言閱讀不易,是故最後統一以中文輸出,當初在遇到這個問題時,還一度得更換已經訓練地很深入的模型。
楊子毅認為目前語音辨識已有許多強大、成熟的模型,而最大的問題來自於用戶,因為在不同情境下,所遇到的輸入和不同用戶所想要的輸出都不同,也就是說,同一段音訊,不同使用者想擷取的重點因人而異,而沒有一個客觀的標準答案。因此,開發者便必須在案子或用戶改變時,持續對模型進行調整。
訪問同學與楊子毅學長合照
黃語棠,本系大學部學生,現為臺大電機之友學生編輯。