検索
連載

まるで聖徳太子の耳のように複数話者を聞き分ける「分離集音」技術とは?5分で分かる最新キーワード解説(3/4 ページ)

拾った音をリアルタイムに話者ごとに分離する「分離集音」技術が登場した。10人の訴えを聞き分けたという現代版、聖徳太子が降臨するか。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

【第2段階】話者を特定する

 次の段階では、複数マイクへの音の到達時間の差をもとにして話者の位置を割り出し、それぞれに分離した音声を割り当てる。この段階で対象とする音声以外の雑音は切り捨てられる。このクラスタリングもリアルタイムに行える(図6)。

音源方向の情報とのマッチング結果から各分離信号(話者)の相対的な位置関係を判定
図6 音源方向の情報とのマッチング結果から各分離信号(話者)の相対的な位置関係を判定(出典:東芝)

 話者の特定は、現在のところ会議室などでの簡便な利用を念頭に、3人程度までの話者の音声分離を対象にしている。マイクを多くすれば多人数の話者の分離ができる(話者の数に対してマイクの数が同数以下で正確に分離可能)のだが、マイクを多くすると計算量が増えてしまい、タブレットなどのような比較的性能に制約がある端末ではリアルタイムに使えなくなってしまうからだ。

 なお、話者の位置は録音中も厳密でなくて良く、自席で前後左右に動く程度のことは分離精度に影響しないという。ただし、立ち歩いたり話者の位置が入れ替わったりすることは想定していない。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る