次の段階では、複数マイクへの音の到達時間の差をもとにして話者の位置を割り出し、それぞれに分離した音声を割り当てる。この段階で対象とする音声以外の雑音は切り捨てられる。このクラスタリングもリアルタイムに行える(図6)。
話者の特定は、現在のところ会議室などでの簡便な利用を念頭に、3人程度までの話者の音声分離を対象にしている。マイクを多くすれば多人数の話者の分離ができる(話者の数に対してマイクの数が同数以下で正確に分離可能)のだが、マイクを多くすると計算量が増えてしまい、タブレットなどのような比較的性能に制約がある端末ではリアルタイムに使えなくなってしまうからだ。
なお、話者の位置は録音中も厳密でなくて良く、自席で前後左右に動く程度のことは分離精度に影響しないという。ただし、立ち歩いたり話者の位置が入れ替わったりすることは想定していない。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。