メディア

まるで聖徳太子の耳のように複数話者を聞き分ける「分離集音」技術とは?5分で分かる最新キーワード解説(3/4 ページ)

» 2017年03月08日 10時00分 公開
[土肥正弘ドキュメント工房]

【第2段階】話者を特定する

 次の段階では、複数マイクへの音の到達時間の差をもとにして話者の位置を割り出し、それぞれに分離した音声を割り当てる。この段階で対象とする音声以外の雑音は切り捨てられる。このクラスタリングもリアルタイムに行える(図6)。

音源方向の情報とのマッチング結果から各分離信号(話者)の相対的な位置関係を判定 図6 音源方向の情報とのマッチング結果から各分離信号(話者)の相対的な位置関係を判定(出典:東芝)

 話者の特定は、現在のところ会議室などでの簡便な利用を念頭に、3人程度までの話者の音声分離を対象にしている。マイクを多くすれば多人数の話者の分離ができる(話者の数に対してマイクの数が同数以下で正確に分離可能)のだが、マイクを多くすると計算量が増えてしまい、タブレットなどのような比較的性能に制約がある端末ではリアルタイムに使えなくなってしまうからだ。

 なお、話者の位置は録音中も厳密でなくて良く、自席で前後左右に動く程度のことは分離精度に影響しないという。ただし、立ち歩いたり話者の位置が入れ替わったりすることは想定していない。

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。