林棋竣
原始論文作者。林棋竣同學(上排左一)、李宏毅教授(下排中)、李琳山教授(下排右)。
開放領域語音問答模型
林棋竣同學(左)與專題指導教授李琳山教授(右)
電子產品裡面的虛擬助理,例如Siri、Alexa,能夠利用問答系統回答使用者五花八門的問題。問答系統通常會先利用語音辨識,將使用者口述的問題轉成文字,再到網路上或其他資料庫尋找相關的文字文檔,最後從這些相關文檔找出答案。
然而現有的問答系統有一項明顯的不足: 無法搜尋沒有文字標記下的多媒體文檔,像是影片、廣播等。近幾年多媒體資料在網路上數量急遽成長,已經成為現代人重要的資訊來源。如果未來問答系統能夠搜尋多媒體文檔,將能夠比現有的問答系統回答更多樣的問題。
電機系大學部三年級林棋竣同學,在李琳山教授及李宏毅教授的指導下,與台大電信所、MIT及Meta AI的學者共同研究出第一個不需文字標記的開放領域語音問答模型。研究中提出的方法,能夠讓模型在完全不依賴語音辨識的情況下,直接用問題的語音信號,去快速搜尋相關文檔的語音信號,並且從相關文檔的語音信號找出答案。採用此方法的語音問答模型,不僅平均表現能夠接近由語音辨識和文字問答系統組成的基準模型外,在語音辨識錯誤率高的情況下,更能夠顯著超越基準模型。
此研究的成果能夠被應用於讓現有的文字問答系統與語音問答系統結合,使虛擬助理可以同時搜尋文字和語音文檔來回答使用者的問題。也能應用在缺乏文字資料或沒有文字形式的語言中,讓問答系統憑藉純語音的資料庫來問答。
林棋竣,電機系大學部大三升大四學生。