電腦音樂漫談 | 臺大電機之友

鄭士康

人類的精神生活中，音樂佔有相當重要的地位：通俗樂曲道出社會大眾的心聲，高尚的樂曲淨化人們的心靈。現代工商社會中，人們精神空虛，休閒生活貧乏，更需要音樂的精神食糧，因此音樂的出版與相關科技已發展為世界重要的產業；近來之MP3熱潮，即為明證。自電腦發明後，電腦與音樂結合為電腦音樂，更帶領人類的音樂生活進入全新的境界。

早在電腦發明不久，人類就希望能讓電腦演奏音樂。這方面的先騙是 Max Mathews，他在一九五七年即控制 IBM 電腦產生音樂，帶動樂音合成與電腦作曲的風潮。

樂音合成主要依靠訊號處理技術。早期多半使用 Fourier Transform原理，以不同比例的諧波（Harmonics，或 Partials )，合成同音色的聲音，也由是產生許多聽起來很有電子味道的聲音，例如電話撥號的聲音，早期科幻電影中的背景音樂，乃至電子樂器如早期之 Theremin (C. Roads ,The Computer Music Tutorial, MIT Press, 1996一書的圖 14 . 3有此種樂器的實物照片，此外這本書還有各式各樣電子合成樂器的圖片。）及現代電吉他的聲音等等。但此種諧波合成之技術相當複雜，早期電腦及 DSP晶片技術尚不成熟之時，其電路製作成本相當高，不易普及。至一九七三

年， Stanford University的研究生 John Chowning發明了調頻音樂合成技術（Frequency ModulationSynthesis)，可以用低廉的電路產生豐富的音色。此一技術由日本山葉（Yamaha）公司購去，成為普及世界之電子琴的核心。藉由出售 FM技術

所得， Stanford University成立了電腦音樂與聲學研究中心（ Center for computer Research in Music and Acoustics , CCRMA , http : //ccrma-www.Stanford.edu），為世界第二大的音樂研究中心（第一大為法國國家成立於巴黎的 Institutde Recherche et Coordination Acoustique/Musique (IRCAM，http://www.ircam.fr)。此外，自早期

之個人電腦開始，絕大多數電腦音效卡亦使用 FM技術，影響不可謂不大。然而，諧波合成及 FM技術在合成真實樂器時，其逼真程度仍待改進。因此，一九八三年時， CCRMA的 Julius O . SmithIII 的博士論文提出物理模式合成法（Physical Modeling synthesis)，藉由樂器發聲的物理機制，模擬其波動行為，轉化為簡單訊號處理之架構，可以相當真實地再現樂器，尤其是絃樂器的音色。此一技術亦轉移山葉公司，成為新一代電子琴之基礎。

另一方面，想要獲得逼真的樂器音色，應該對於樂器發聲作詳盡物理分析。對樂器的科學研究其實早在古希臘即已開始，但在微積分及現代力學發明後才有比較詳盡定量的分析。這一方面研究最多的大概是小提琴（參考文獻如： Lothar Cremer（translated by John S . Allen ） . Tbe Physics of the Violin , MIT Press, 1984 ; Research Papers in Violin Acoustics, 1975 – 1993, with an Introductory Essay, 350 Years of Violin Research, edited by Carleen M . Hutchins and Virginia Benade, Acoustical Society of America , 1996.），但是到如今最好的小提琴還是要靠老師博的經驗才能製造出來。

電腦音樂另一最為人所知的主題為電腦作曲。記得小時看過新聞，報導本系學長林二先生將電腦作曲引入國內，喧騰一時。電腦作曲模仿人腦的一種創造活動，因此多少都與人工智慧有關。有一極作曲方式利用”好聽”音樂的統計特性，由作曲者決定大概曲式後，即由電腦依據演算法或規則隨機選擇音符，完成樂曲。另外也有人設計程式，以人工智慧中的機器學習（Machine Learning）理論，學習某一音樂家的曲風（Style）·進而作出模仿該音樂家的曲子。加州大學 Santa Cruz分校教授 David Cope應用此種方法，以電腦作出模仿巴哈、蕭邦、貝多芬、莫札特、史特拉

文斯基等人曲風的作品（D . Cope , Computers and Music Style, A – R Editions , Inc . , 1991 ; D .Cope, Experiments in Music Intelligence, A – R Editions , Inc . , 1996 . ），筆者手邊就有一片CD ( David Cope, Classic Music Composed by Computer-Experiments in Musical Intelligence,Centaur Records, Inc., 1997，編號 CRC2329 ) ,收錄了 David Cope 的一些作品。

除了讓電腦發出樂音、演奏音樂、創作樂曲，很容易想到的問題便是可不可以讓電腦聽音樂。首先，當然要讓電腦聽得倣音樂的旋律（Melody）、音色（Timbre）、節奏（Beating and Rhythm）、和絃（Chord）等，並轉成樂譜，這便是自動識譜（Automatic Transcription )，歷來已有許多研究，大多也用到訊號處理及人工智慧。有了自動識譜後，就可以進行自動伴奏（Automatic Accompaniment ）。筆者一九九九年在

CCRMA訪問半年時，曾聽 Carnegie Mellon University之 Roger Dannenberg演講，現場播放電腦與室內樂團合奏的錄影錄音，相當有趣。去年暑假筆者擔任中華大學蘇文鈺教授指導學生之碩士論文口試委員，也聽到一個鋼琴自動伴奏系統的展示。

在自動識譜及自動伴奏之上，如果能讓電腦與人一樣，聽得出音樂的曲風與情感，那就更理想了。曲風可應用於電腦作曲，已大略說明如上，音樂中的情感表現則每個人的感受不同，暇如可以將電腦訓練成使用者的知音，了解使用者對各種音樂的感覺，那麼電腦便可以在網路世界為使用者篩選購買喜歡聽的音樂·，這方面的研究，與麻省理工學院媒體實驗室（Media Lab，http ://www.media.mit.edu/）教授 Rosalind W.Picard (http: //whitechapel.media.mit.edu/people/picard/)提出的情感計算（Affective Computing，http://www.media.mit.edu/affect; Rosalind W. Picard, Affective Computing, MIT Press, 1997）有很大的關聯。情感計算的目的為讓電腦感知人類情感，並能表現適常情感，增進人類與電腦溝通的效率。如果電腦與使用者對音樂有相同的情感認知，便有可能讓電腦與使用者借助音樂協助溝通，彷彿電影”第三類接觸”中人類與外星人之間的音樂對話。此方面的研究難度頗高，已發表的論文非常稀少，且均在極為原始的階段。

日常生活中與音樂息息相關的應該就是音響科技了，這裡面包含聲音的擷取、訊號處理、儲存、再現等環節，也有許多用到了電腦相關的技術。聲音自麥克風轉變為電子訊號，需要經過訊號處理，才能以一定格式儲存或再現。目前常用的儲存媒體如光碟 CD、磁碟與磁片、快閃記億體( Flash Memory)，其處理包括混音（Mixing）、音質修改、格式轉換、剪接，壓縮（Compression）等。最近新加坡有一位國語老歌的發燒友李明國先生，將三O年代錄在七十八轉塑膠唱片上，由白光、·周璇等等歌星所唱的國語老歌轉錄至 CD，深受國語老歌愛好者歡迎，便是一個訊號處理的成功例證。儲存格式種類繁多，如光碟 CD 的格式、 MIDI ( Musical Instrument Digital Interface )格式、微軟視窗作業系統的wav檔格式、Sun 電腦的 au 檔格式、當下最流行的 MP3格式等等。其中的 MP3為國際專業團體 Motion Picture Experts Group 所訂多媒儂格式標準 MPEG – 1, Layer 3的簡稱，利用心理聲學（Psychoacoustics）原理，將人耳較不敏感的頻率範圍以較少的位元紀錄，而較敏感的部分則用較多的位元表示，如此可以將聲音訊號儲存與傳送所需的位元數壓縮至二十四分之一，使歌曲得以在電腦網路上快速流傳，在聲音再現技術方面，由早期的身歷聲立體音響（Stereo），到現在流行的環繞音效（Surround）；與5 . 1聲道音響，帶給人類愈來愈強烈的感受效果。另外一種重要的音響技術為 3D音效（David B . Anderson and Michael A . Casey , ” The Sound Dimension, ” IEEE Spectrum , pp . 46- 50 , March 1997 : Gary S . Kendall , ” A 3-D Sound Primer : Directional Hearing and Stereo Reproduction,’ Computer Music Journal, vol . 19 , no . 4 , pp . 23 -46 . Winter 1995 . ）：產生的音效可以給聆聽者真實的三度空間感受。此種技術主要為將麥克風放在耳內，測量人類雙耳對各方向入射聲音的頻率響應，即所謂的頭部相關轉移函數（Head Related Transfer Function , HRTF）。將HRTF經 Inverse Fourier Transform可得頭部相關脈衝響應（Head Related Impulse Response , HRIR）·因為耳道測得的聲音與入射聲音網成一個線性系統的輸入與輸出，所以只要把聲音與對應角度的HRIR進行摺積（Convolution )，即可產生聽來像是由原先方向傳來的聲音，這種三度空間音效在虛擬實境應用，例如電玩或飛行模擬器等，非常有價值。微軟公司的 DirectX多媒體程式發展工具，也已加入了 3D音效的程式。

音樂及音效與圖形、影像、影片、動畫等結合，便成了時下極受歡迎的多媒體（Multimedia），其應用如卡拉 OK、 DVD播放系統、家庭劇院、數位廣播、網路多媒體等等。把許多多媒體資料組織起來，就是多媒體資料庫 ( Multimedia Database)，其管理與資料搜尋有許多和傳統文、數字資料庫不同的地方。例如，清華大學張智星教授（http : //neural. cs.nthu.edu.tw/jang/）指導學生發展了智慧型歌曲搜尋系統’·超級點歌王,” (http : //www.4music.com.tw/）·使用者輸入一段旋律，系統即會找到相關的歌曲。類似應用也是最新多媒體內容描述標準 MPEG-7 (http://www.mpeg-7.com/)，將於本年九月正式成為國際標準）的許多應用之一。

此一應用目前亟待解決的問題之一，即是如何分離人聲及背景音樂。

筆者自一九九五年開始對電腦音樂發生興趣，招收碩士班學生及大學部專題研究學生組成電腦音樂研究團隊（Jeng’s Computer Music Group，JCMG）。五年來先後已有四十餘人投入研究，研究主題由開始的 3D音效，樂器聲音合成，而至最近的音樂辨識。

在 3D音效方面，大學部學生劉明熙實作出所需之快速摺積計算；碩士班學生馬自莊利用數值電磁學中的時域有限差分法（Finite Difference -Time Domain）計算HRTF，可以用來驗證實驗的量測結果；碩士班學生鍾永哲在個人電腦實作出可以工作的 3D音效系統；碩士班劉昌瑋以個人電腦進行三度空間聽覺實驗，驗證文獻的說法；大學部學生陳彥甫、張歐正實作不用耳機的 3D音效；大學部學生郭君玄、張景程、顏聖峰、王聖唯、簡志昇、林君品由資訊系歐陽明教授協助指導，實作出偵測頭部姿態角度的三度空間電磁定位系統，並獲得教育部微電腦系統設計製作比賽八十五學度佳作，八十六學年度第一名；碩士班學生汪哲彰利用電磁理論中的射線追蹤法（Ray Tracing）計算室內音場分布，此程式經筆者改寫，由碩士班學主詹志龍與 3D音效結合，發展出虛擬音樂廳程式 VIAESS3，使用者戴上耳機可以聽到彷彿置身室內空問的音響。由於受限於當時個人電腦的速度，VIAESS3只能處理語音，否則即可模擬音樂廳或高級車內聽到的音樂音響。

在樂器聲音合成方面，大學部學生鍾佩勳、廖偉舜、碩士班學生許昱利用物理模式合成法，產生撥弦樂器聲響；大學部學生林秉勳、陳彥宏、林士駿以諧波分析，合成小喇叭聲音；碩士班學生周厚原以有限元素法（Finite Elemcnt Method）分析鼓膜振動及吉他共振箱對其發聲的影響。

在音樂辨識方面，大學部學生陳柏戎實作出節奏辨識程式，目前由碩士班學生虞敬業繼續改進；碩士班學生蘇柏青在大學部修習專題研究時，致力於音高之辨識，並獲得國科會大學部學生參與專題研究計畫成績優異獎，進入研究所後又進行音色與節奏之辨識，完成一整合型樂音辨識系統；其和絃辨識方而的研究，首創利用小波轉換（Wavelet Transform）及類神經網路分別模擬耳蝸及大腦皮質，深具價值，其論文於今年 IEEE國際聲學與語音訊號處理會議（International Conference on Acoustic Signal and Speech Processing，ICASSP）發表，實屬不易。碩士班學生籣御仁自大學部起即以解決八度音分辨之困難問題為目標，目前已略有所成。大學部學生林其賢、陳建宇開發了可即時辨識出小提琴演奏音高的程式系統；大學部學生沈育德、林祐承、林天惠發展依照音樂快慢調整簡化人體模型動畫動作速度的程式。

其他相關之研究尚有大學部學生周子涵、楊育哲完成播放個人電腦 wav檔的程式模組；大學部學生張嘉珮、虞敬業、張國俊實作出 MIDI檔的讀寫程式；大學部學生李卓諭寫出電腦錄音的程式模組；大學部學生陳怡如、楊尚融分別作出時間-頻率的 3D顯示圖與五線譜的顯示列印程式。大學部學生林君豪、林育田、張毓麟、林修身實作出電吉他的音響效果器軟體，大學部學生拍堂宏、陳威任、李皖琦以簡易電子琴程式，實驗網路音樂會的可行性。大學部學生許可欣初步探討了灰理論及在音樂壓縮的可能應用。

以上簡單敘迷電腦音樂的幾個重要範疇如樂音合成、電腦作曲、音樂辨識、音響科技、多媒體音訊及 JCMG的研究概況。隨著電腦的普及與人類休閒生活需求的增加，跨領域的電腦音樂研發工作應該有很好的前景。附帶條列一些相關的國際學術組織及期刊如下，供有興趣的人士參考：

ACM Special Interest Group on Multimedia ( SIGMM )

Acoustics Society of America ( ASA )

Journal of Acoustics Society of America

Audio Engineering Society ( AES )

Journal of the Audio Engineering Society

Computer Music Journal, published by MIT Press

IEEE Society of Signal Processing

IEEE Society of Computers

IEEE Multimedia Magazine

IEEE signal Processing Magazine

IEEE Transactions on Signal Processing

IEEE Transactions on Speech and Audio Processing

IEEE Transactions on Multimedia

Music Perception, published by University of California Press

-鄭士康·電機系 1979年畢業，現任台大電機系暨電信研究所教授。