音声信号は,声帯の振動や摩擦による乱流などの音源信号に, 声道・口腔・鼻腔の形状などによって決まる調音フィルタ が畳み込まれたものであると考えることができる. ケプストラム分析とは, 調音フィルタの振幅伝達特性と音源信号のパワースペクトルでは, 前者が後者に比べて(周波数領域で)滑らかに変化する関数であるという性質を用いて, 両者を分離する信号処理手法である.
ケプストラム(cepstrum)とは,スペクトラム(spectrum)
のアナグラムによる導出語であり,
音声波形をフーリエ変換して得たパワースペクトルについて,
その値の対数をとり,さらに逆フーリエ変換した結果を指す.
ケプストラムの変数の次元は時間と同じになるが,
これにはケフレンシ(quefrency)という言葉を用いることが多い.
(これは周波数(frequency)のアナグラムである.)
一般に,音源信号のパワースペクトルが微細な構造を持っているのに対して,
調音フィルタの振幅伝達特性は滑らかな形状をしていることが知られている.
いま,音源信号のスペクトルを,
調音フィルタの伝達特性をと表すと,
この音源信号に調音フィルタが畳み込まれて生成された音声信号のスペクトルは,
したがって,両辺の対数をとると,
となり,音声信号の対数振幅スペクトルが,
音源信号の対数振幅スペクトルと調和フィルタの対数振幅応答の和として得られるこ
とがわかる.
ここで,周波数を時間に見立てて,
2つのスペクトルをフーリエ変換(実際には逆フーリエ変換)することを考えれば,
音源信号は調音フィルタに比べて高いケフレンシ領域にエネルギーが集中することがわかる.
つまり,ケプストラムは低ケフレンシ領域に調音フィルタの性質が,
高ケフレンシ領域に音源の性質が表れる.
したがって,ケプストラム係数を求め,
それに窓掛け(リフタリング(liftering)という:
フィルタリング(filtering)のアナグラム)を行うことによって,
両者を近似的に分離することが可能となる.