第2章 相關背景與文獻回顧
2.1盲訊號分離
盲訊號分離(Blind Sources Separation, BSS)80年代中後期所發展出來的強大訊號處理方式[1-4],目前已被廣泛應用在各種領域的研究上如生物醫學、語音與通訊、影像處理以及金融經濟學等等。在訊號處理上盲訊號分離雖是一種傳統問題但卻極具挑戰性,因盲訊號分離的過程是將感測器所觀察到的混合訊號,以萃取或重建出無法直接觀測的訊號,而盲訊號除了是代表未知的原始訊號內容之外,其信號內容之混合系統的特性亦是未知狀態,因此利用盲訊號分離技術對未知的訊號及混合系統進行估算是件不易的事情。
盲訊號分離方法最大的特是能充分考慮訊號的特性,例如統計獨立性、稀疏性和光滑性等特性來提供各種穩健和高效能的計算方法,並且從觀測訊號中估算出不同特性的訊號源[1],其基本的處理步驟包含預處理盲訊號分離和後處理等三個部分(2.1所示)。大部分的盲訊號分離法是需要先驗資訊(A Priori Knowledge)或是其相關理論的目標函數(Cost Function)的非監督式學習( Unsupervised Learning)方法,因此將訊號進行預處理與後處理能夠取得可靠且具物理意義的信號成分,舉例來說,先將觀測的訊號進行白化(Whitening)等預處理,再利用基於高
階統計特性的獨立成分分析法出混合資訊,然後利用這些資訊進行後處理,讓原始信號進行重建。
2.1 盲訊號分離基本步驟
2.1.1雞尾酒會問題
在盲訊號分離中,雞尾酒會問題(Cocktail Party Problem)[5]是最被廣泛討論的經典例子,其描述的狀況是在一場雞尾酒會的會場上,充滿著各式各樣的聲音,如交談聲、音樂聲、腳步聲與杯盤聲等等。當我們身處在這種場合時,耳朵雖同時接收多種聲音來源,但卻能在這種
吵雜的環境中專心於自己有興趣的聲音,而忽略其他的聲音,例如跟某一的人在聊天時,就會自然而然的專注在聊天的內容與聲音上,而自動忽略了如音樂聲或其他人談的聲音,或是想聽音樂時,也能專注於音樂聲,對於其他交談聲或腳步聲也能自動忽略。
因此若要讓電腦執行如同人耳分離出各式不同的聲音的方式,並分析出我們所感興趣的聲音,則需在不同的位置放置足夠的麥克風去記錄這些聲音,讓這些麥克風記錄各個具有不同比例訊號所混合的訊號,然後再由電腦執行分析,以擷取各種訊號。
2.2所示為雞尾酒會問題示意圖圖中的S表示各種獨立的訊號,麥克風所接收到的訊號X則表示各獨立訊號經由某種比例混合後的訊號。假設有m個語音訊號s1(t) , s2(t) ,…, sm(t),利用n支麥克風所錄製的訊號為x1(t) , x2(t),…, xn(t),則其訊號為
              (2.1)
由公式(2.1)可發現x(t)s(t)屬於線性疊加關係,故其矩陣形式可表示為
                        (2.2)centering
其中A為一個的矩陣,稱為混合矩陣(Mixing Matrix)
(2.2)式中除了x(t)是已知訊息之外,其As(t)皆屬於未知的資料但我們可利用盲訊號分離的方法求出(2.2)式中混和矩陣A之逆矩陣相似的矩陣W,然後以矩陣W重建出與s(t)相似的訊號,其中W稱為解混合矩陣(De-Mixing Matrix)該值為
                          (2.3)
因此
                      (2.4)
其中u(t)為估測之重建訊號(Reconstruction Signal)當解混合矩陣W與混合矩陣之逆矩陣A-1越相近,則重建訊號u(t)會越近似原始訊號s(t),但由於A是未知的資訊,因此必須藉由觀測之混合訊號估算出W解混合矩陣。
2.2 雞尾酒會問題示意圖
獨立成分分析法(Independent Component Analysis, ICA)[6-9]是經常被應用在解決上述問題的一種方法,是基於訊號高階統計特性的分析方法2.3所示假設s1s2為原始訊號,x1x2則是經麥克風所觀測到的訊號(2.4),並測量觀測訊號之非高斯成分(Measure
of Non-Gaussianity),藉以估計混合矩陣W,然後分析出互相獨立的各訊號分量(2.5所示)