臨場感テレワークにおける音処理技術

臨場感テレワークにおける音処理技術
矢頭 隆 森戸 誠
普段、我々はオフィス空間にいて何気なく聞く音から、
特に努力することもなく無意識に多くの情報を得ている。
誰がどのような仕事をしているか、多忙か、在席か、は
高品質、高臨場感実現のための音処理技術
(1)音臨場感生成技術
たまた健康状態は、人物だけではなく機器が動作してい
遠隔2点間で音によるコミュニケーションを行なうこと
るか・・・、会話音に限らず非言語音から得られる情報も決
を考える(図1)。特定の場所に設置したマイクから収録
して少なくない。しかし、一般にテレワークでの音通信
した音を相手方のスピーカ等で再生する。限られたマイク
は会話音が主目的で非言語情報の伝送までは考慮されて
数やマイクと音源との位置関係などに影響され、方向感
いない。その会話音でさえもマイクで収録し通信路を介
や距離感、個々の音の音量バランスが損なわれる。高臨
して遠隔地で聞く場合、種々の変形要因によって明瞭性
場感の実現には、遠隔地であっても互いの空間が接して
が大きく劣化する。結果として多くの有用な情報量が失
いるような音響空間の生成、すなわち空間的な方向感や
われている。テレワークを真に効果的にするためには、雰
距離感をも含めて現場の状態を再現できる立体音響の技
囲気や様子が自然と伝わる臨場感豊かな音環境の実現が
術が必要である。
重要である。
バイノーラル再生(図2(a))は、原音場でバイノー
本稿では、高品質、高臨場感実現のための音処理技術
を概観した上で、要素技術の一つである音源分離技術に
ついて紹介する。
ラル録音*1)された音をヘッドホンで受聴する。収録音に
は音源から聴取者の両耳に到達するまでの音響的な影響
(頭部による音の反射や回折など)も含めて録音されてい
るため、聴取者はあたかも原音場で音を聞いているよう
な臨場感が得られるとされる。システムが簡易、再生音
場所A
場所B
え、
何だって?
音環境理解
?
?
いま誰が
言った?
音環境再現
騒音
残響
盛り上がって
るな
何か
いいことあった?
音量感
距離感
方向感
図1 テレワークにおける音臨場感の生成
*1)バイノーラル録音:人間の左右の耳に入る音そのものを収録するため人形(ダミーヘッド)の耳に取り付けられた2つのマイクによって録音する方法。
16
OKIテクニカルレビュー
2008年10月/第213号Vol.75 No.2
ユビキタス社会のテレワーク特集 ●
方向や距離を認知している。あらゆる方向からのHRTFを
予め測定しておき、音源に対し特定の方向のHRTFを適用
したバイノーラル信号を耳元で受聴すれば、特定の位置
に音源が存在するがごとく音を定位させるができる(図3)
。
これを臨場感テレワークに適用するには、個々の音源の
ダミーヘッド
原音場
再生音場
位置が特定され、かつ音源ごとに音が分離されていなけ
ればならない。そのため音源位置の推定や音源分離など
の技術も必要になる。
図2 (a)バイノーラル再生
(2)高品質化技術
音源から発せられた原信号は空気を媒介として伝達さ
逆
フ
ィ
ル
タ
れ、耳やマイクロホンに到達する。その間、目的音以外
の話し声や環境雑音、残響などが混ざり合いさまざまな
変形を受ける。高品位な音コミュニケーションの実現に
ダミーヘッド
原音場
再生音場
は立体音響だけでなく、これら変形への対策が必要となる。
雑音の種類には、空調音のように比較的定常ではある
図2 (b)トランスオーラルシステム
が音源が1方向に特定できない拡散性雑音と、音声や音楽
のように指向性があって時間変動の大きい指向性雑音が
仮想位置
ある。性質の違いから対策方法も異なる。拡散性雑音に
対しては、スペクトルサブトラクション(通称SS法)や
ウィーナーフィルタなどの雑音除去方式が、また、主マ
右耳HRTF
音源
左耳HRTF
イクとは別に雑音のみが観測できる参照マイクが利用で
きる場合には、ノイズキャンセラーの手法が使える。一方、
指向性雑音は、このような雑音除去方式を用いて取り除
図3 HRTFを用いた音像定位
くことは困難である。これには複数の音源が混ざり合っ
た音から目的とする音(主として音声)だけを分離・抽出
場の部屋環境の影響を受けないなどの利点がある反面、音
する音源分離技術が用いられる。マイクロホンアレーを
像が頭内に定位することが多い、ヘッドホンを装着しな
用いて目的音方向に強い指向性を向けるビームフォーマー
ければならず通常のコミュニケーションを阻害するなど
や、独立成分分析(ICA)を用いた音源分離がよく知られ
の問題・制約がある。一方、ヘッドホンの代わりに複数
ている。
のスピーカを用いて受聴点耳元の音圧を制御するシステム
残響は音の了解性を損なうだけでなく音源分離や後述
が提案されている。バイノーラルシステムと区別するた
の音場制御に多大な悪影響を及ぼす。残響除去は見過ご
めにトランスオーラルシステム(図2(b))と呼ばれる。
すことのできない重要課題である。このほかにも遠隔地
再生音場において各スピーカから聴取者の両耳までの伝
側でスピーカから発せられた音がマイクに回り込み、再
達特性をあらかじめ測定しておき、収録音にその逆特性
び発声者側に戻ってくる音響エコーへの対処も必要である。
を施すことで受聴点でのバイノーラル再生を実現する。こ
回線エコーと比べ、遅延時間が長い、エコー経路特性が
れらの方法は空間上の固定点を制御するもので、受聴者
変動するなど難しい課題がある。
が頭を動かしたり移動したりすると臨場感や方向感が損
なわれる。点ではなく領域を制御する方法も提案されて
いる。
音 源 分 離
テレワークにおける音処理の要素技術の1つとして、音
以上は原音場の音響情報を保存し、それを別の場所に
源分離技術の研究開発に取り組んでいる。小林らが提案
再現する音場再現と呼ばれる技術であるが、個々の音源
した本方式1)はコンパクトなマイクロホン配置で、かつ少
に定位感を与えて立体音を創り出す音像定位技術も広く
ない演算コストで実現可能である。2つのマイクを用いた
研究されている。人間は、音源から両耳に到達するまで
基本的な方式の構成を図4(次ページ)に、また本方式に
の音響的な特性(頭部伝達関数:HRTF)の違いから音の
用いる空間フィルタの原理を図5(次ページ)に示す。
OKIテクニカルレビュー
2008年10月/第213号Vol.75 No.2
17
空間フィルタ
右マイク
x1
x2
FFT
FFT
X1
フィルタ1
min
B2
フィルタ2
X2
帯域選択
B1
フィルタ3
サ
ブ
M
帯ト
域ラ
選ク
択シ
y
再
合
成
ョ
ン
N
左マイク
Y
(a)構成
通さない
×
R
R
R
通す
B1
B2
N
×
通す
通さない
L
L
(c)フィルタ2
(d)フィルタ3
L
×
通さない
(b)フィルタ1
図4 音源分離方式
音
源
方
向
右方向
死角
右マイク
遅延
NJ
d
θ
N
J
正面
+
+
>J
指向特性
左マイク
図5 (a)空間フィルタの原理 図5 (b)指向特性
はじめに空間フィルタの原理について説明する。図5
τ=d/c=l sinθ/c
c:音速
(3)
(a)において、θ方向から到来する平面波を距離 l だけ離
れて設置された左右2つのマイクロホンで受音することを
の関係が成立する。したがって x1(t ) にτ なる遅延を与え
考える。θ方向から到来した音波は、まず音源に近い右
x2(t ) から減算(逆位相で加算)すれば(式(4)
)
、信号同士
マイクに受音される。次に音波は距離d だけ進んで左マ
が相殺され、特定方向θに死角が形成される。
イクに到達する。距離 d は
d = l sinθ
(4)
このときの指向特性の例を図5(b)に示す。
と表される。したがって、左マイクでの受音信号x2(t ) は
時間軸上での空間フィルタ形成操作は、周波数領域で
右マイクでの受音信号x1(t ) と比べて音波が距離d だけ進
も同様に行うことができる。時間軸をτだけ遅らせた信
行するのに要する時間τだけ遅れた信号となっている。す
号のフーリエ変換は、もとの信号をフーリエ変換した結
なわち
果にe−jωτを乗じたものになることが知られている。時間
x2(t )=x2(t −τ)
18
b(t )= x2(t )−x 2(t −τ)
(1)
OKIテクニカルレビュー
2008年10月/第213号Vol.75 No.2
(2)
軸上の式(4)は、x1(t )、x2(t )の短時間フーリエ変換 X 1(ω)、
ユビキタス社会のテレワーク特集 ●
X i(ω)
x i(t)
FFT
FFT
FFT
最
小
値
選
択
空間
フィルタ
逆FFT
再合成
Hm(ω)
FFT
Hs(ω)
フィルタ
係数算出
Multi-chanel
Filter
フィルタ
係数算出
音声区間
検出情報
Wiener
Filter
図6 拡散性雑音を考慮した音源分離の構成
X 2(ω)を用いて周波数軸上では式(5)のように表される。
B(ω) =X 2(ω)−e−jωτX 1(ω)
y
B2
(5)
次に音源分離方式について説明する。この方式では
ch.3
ch.4
ch.2
ch.1
図4(a)に示すように2つのマイクからの入力を用いて
3つの空間フィルタを形成する。空間フィルタ1は右方向
に死角が設定されており、右方向から到来する妨害音を
抑圧する。目的音は、ある利得を持って出力される。こ
の出力をB 1(ω)とする(図4(b)
)
。空間フィルタ2は左方
向に死角が設定されており、左方向から到来する妨害音
ch.2
ch.3
B3
X
B1
z
ch.1
B4
d
(a)マイク配置
を抑圧する。空間フィルタ1と同様、目的音はある利得を
ch.4
(b)マイクの組み合わせ
図7 マイク配置
持って出力される。出力をB 2(ω)とする(図4(c)
)
。空間
フィルタ3は、正面方向に死角が設定され(図4(d)
)
、目
択は、信号M(ω)に目的音の成分が含まれているかどうか
的音以外の成分を抽出する働きを有する。出力をN(ω)と
を判定するために行なう。N(ω)は目的音方向以外からの
する。空間フィルタ1の出力の振幅成分|B 1(ω)|と空間
周囲雑音と考えられるからN(ω)がM(ω)より大きい場合
フィルタ2の出力の振幅成分|B 2(ω)|の小さい方を選択
は、そもそも目的音の成分が存在しない区間とみなして
する。
棄却する。M(ω)に目的音の成分があると判断されれば、
M(ω)= min[|B 1(ω)|,|B 2(ω)|]
(6)
サブトラクションを行なって正面方向に鋭い指向性を向
け、目的音を分離する。
右方向に妨害音音源が存在した場合、右方向に死角を
簡単のため、ここでは2マイクでの構成を示したが左右
持つ空間フィルタ1の出力B 1(ω)は、妨害音が抑圧されて
水平方向だけでなく上下垂直方向にもマイクを配置すれ
振幅が小さくなる。これに対し妨害音が存在しない方向
ば、空間中の種々の方向からの指向性雑音に対応可能に
に死角を持つ空間フィルタ2の出力B 2(ω)には振幅に大き
なる。
な変化はないと考えられる。逆に、左方向に妨害音源が
あればB 2(ω)は小さくなるがB 1(ω)の変化は少ない。した
拡散性雑音を考慮した音源分離
がって最小値選択されたMは、最大の妨害音を抑圧した
実際の使用環境では指向性雑音だけが存在することは
目的音候補成分である。最後にM(ω)とN(ω)によって以
ごく稀であり、指向性および拡散性雑音が混在して存在
下のように帯域選択とスペクトル・サブトラクションを
する。ここでは拡散性雑音も同時に抑圧する音源分離シ
行い出力Y(ω)を決定する。
ステムについて述べる2)。システムは図6に示すように、
指向性雑音抑圧部、拡散性雑音抑圧部、残留雑音抑圧部
から構成される。本システムでは、図7(a)で示すように
平面上に4個の無指向性マイクを正方形に配置する。目的
ここでは空間フィルタゲイン補正係数である。帯域選
音は正面(Z軸方向)から到来するものとする。
OKIテクニカルレビュー
2008年10月/第213号Vol.75 No.2
19
と仮定するとゲイン関数は次式のように与えられる。
(1)指向性雑音抑圧
始めに本システムにおける指向性雑音抑圧から説明する。
先に記した空間フィルタの原理を用いて、4つのマイクの
うちの2個ずつを図7(b)のように組み合わせ4通りのマ
イクペアから4方向の空間フィルタを構成する。それぞれ
の空間フィルタは、式(8)∼(11)で実現され上下左右
ここで、事後SN比SNR post(ω)、事前SN比SNR prio(ω)を
それぞれ、以下に定義する。
4方向に指向性を持つ。
B 1(ω) =X 1(ω)−e−jωτX 4(ω)
(8)
B 2(ω) =X 2(ω)−e
(9)
X 1(ω)
−jωτ
B 3(ω) =X 3(ω)−e−jωτX 2(ω)
(10)
B 4(ω) =X 4(ω)−e−jωτX 3(ω)
(11)
これら4つの空間フィルタの出力の振幅成分のうち最も
E[・]は期待値を、 S(ω)は目的音信号表す。事前SN
小さな成分を選択し出力とすることで、指向性雑音の成
比 SNR p r i o (ω) は 、 E[|S(ω)| ]を含むため直接測定でき
>
2
分を最も小さくした出力を得ることができる。
|B min|=min[|B i|](i =1,2,3,4)
ない。そこで事後SN比と前フレームの推定信号S -1(ω)を
(12)
用いて近似的に計算する。
(2)拡散性雑音抑圧
拡散性雑音抑圧は指向性雑音の抑圧と同じ4つの空間
フィルタ出力を用いたマルチチャンネルウィーナーフィ
ここで、P[・]は半波整流、βは忘却係数を示す。
ルタで実現する。目的音である話者の声は各マイクロホン
一方、雑音レベルの推定は、非発話区間の信号から以
号間で相関が低い。この性質を利用し、対向する方向に
指向性を持った信号(B 1とB 3、B 2とB 4 )を組み合わせ、
互いの相関の程度を反映した係数を持つフィルタを構成
下のように忘却的に行う。
2
>
で観測される信号の相関が高いが、拡散性の雑音は各信
2
2
|N (ω)|=(1−λ)|S m(ω)|+λ
|N−1(ω|
)
(19)
忘却係数λは、0.95∼0.99程度に選ばれる。また、目
的音成分の混入を防ぐために、音声発声区間中は雑音学
する。
習を停止する。
(4)音源分離装置の試作
上式は分子のクロススペクトルを分母のパワースペク
開発した音源分離方式を実環境で評価するため、4チャ
トルで正規化する形になっており、相関が高ければ1に、
ンネルのMEMSマイク、CPUボード、AD変換ボードを
低ければ 0 に近づく特性を持つ。このフィルタを前記の
搭載した小型端末を試作した(写真1)。演算処理をすべ
指向性雑音を抑圧した信号|B min|に乗じることにより、相
て固定小数点化した上で、FFT、平方根、倍長除算など
関が低い成分を抑圧し拡散性雑音を低減する。
の演算処理を高速化、前記のすべての処理を試作機内に
実装した。マイク間の距離は縦横ともに3cmと非常に小
型であり、リモコンや携帯電話などの小型の機器にも実
装可能である。
>
(3)残留雑音抑圧
指向性雑音、および拡散性雑音を抑圧した信号S m(ω)
に対し、さらにシングルチャンネルのウィーナーフィルタ
20
ま と め
臨場感テレワークにおける音処理技術について概観し、
を適用して残留する定常雑音を抑圧する。ウィーナーフィ
要素技術である音源分離技術について説明した。音によ
ルタは、信号や雑音を確率過程とみなし平均二乗誤差を
る臨場感生成技術は、音楽演奏などの固定コンテンツを
最小にするフィルタであり、信号と雑音が無相関である
対象にした音場再現技術として、あるいは音源そのもの
OKIテクニカルレビュー
2008年10月/第213号Vol.75 No.2
ユビキタス社会のテレワーク特集 ●
マイク位置
写真1 音源分離試作機
に定位感を付加して仮想的な音像を作り出す音像定位技
術として研究されてきた。しかし、実時間遠隔コミュニ
ケーションにおける臨場感の生成には、まだ多くの課題
が残されている。あたかも職場にいるような音環境の実
現を目指し音処理技術の研究を行っていく。なお音源分
離方式の開発・試作は、経済産業省、平成18、19年度戦
略的技術開発委託費「音声認識基盤技術の開発」の一部
として、早稲田大学からの委託により実施されたもので
ある。
◆◆
■参考文献
1)高田晋太郎,他:少数のマイクロホンを用いた携帯端末向け
音源分離,日本音響学会講演論文集,3-1-8,2006年9月
2)高田晋太郎,他:指向性雑音と拡散性雑音の混在する環境を
対象とした携帯端末向け音声強調の検討,日本音響学会講演論文
集,3-P-3,2007年9月
●筆者紹介
矢頭隆:Takashi Yazu. 研究開発本部 ヒューマンコミュニケー
ションラボラトリ スペシャリスト
森戸誠:Makoto Morito. 研究開発本部 ヒューマンコミュニケー
ションラボラトリ シニアスペシャリスト
OKIテクニカルレビュー
2008年10月/第213号Vol.75 No.2
21