まるで聖徳太子の耳のように複数話者を聞き分ける「分離集音」技術とは?:5分で分かる最新キーワード解説(4/4 ページ)
拾った音をリアルタイムに話者ごとに分離する「分離集音」技術が登場した。10人の訴えを聞き分けたという現代版、聖徳太子が降臨するか。
「分離集音技術」の今後と応用
東芝では「分離集音技術」を同社のクラウドサービス「RECAIUS(リカイアス)」に搭載して提供することを計画している。RECAIUSは音声認識、音声合成、対話、翻訳なども含むメディアデータ知識処理技術の集合体だ。「分散集音技術」はそれらの機能を十分に活用するためのフロントエンドになる。
主な用途としては、音声のテキストデータ化が一番に考えられよう。これは上述したように議事録作成の効率化には大きく寄与しそうだ。また接客サービスにおいても会話のテキスト化は重要な役割を果たす。顧客との対面営業や窓口サービスで利用すれば、クリアな分離音声をもとにした精度の高い音声認識によってテキスト化した情報を、マーケティング分析などに活用できる。
顧客対応マニュアルの作成にも一役買うだろう。従来はこのような応用では電話による音声しか実用的に使えなかった。ハンズフリーで同様の応用ができるようになる意義は大きい。もちろん、自動翻訳のフロントエンドとしても重要だ。クラウドサービスでの機械翻訳を前提にすれば、特別な装置はマイクアレイ以外に必要ない。デスクに置いたマイクアレイ装着タブレットだけで、海外からのビジターとの各国語による対面サービスが可能になりそうだ。
関連するキーワード
マイクアレイ
複数のマイクを並べて配置した装置。1つ1つのマイクは低価格な無指向性マイクであっても、複数のマイクが捉えた音声を信号処理することにより、際立った指向性を作り出したり、音がやってくる方向を推定したりすることができる。音の方向によって不必要な音をカットする他、指向性を変えることで移動する音源を追尾することも可能だ。
「分離集音技術」との関連は?
分離集音のためには、話者の数と同数かそれ以上のマイク(=音声チャネル)が必要になる。2016年の東芝による発表では、タブレットに装着する小型MEMSマイクアレイが利用された。ごく小さなマイクを1.6センチ間隔で並べ、リアルタイム音源分離に必要な空間特性の学習や、話者の位置と分離音声との突き合わせに利用している。
ブラインド音源分離
複数の音源を分離する技術は一般に「音源分離」と呼ばれている。これは話者ごとに声を分離したり環境の中で不必要な音を取り除いて必要な音だけを抽出したりする技術として応用できる。雑音の中でも人の声だけをクリアに聞く、あるいはオーケストラのさまざまな楽器の混合音から特定楽器の音だけを取り出す(採譜するため)ことも研究されている。
1つのマイクからの音でも雑音抑制はできるが、複数のマイクを使うと音の来る方向や距離なども計算できるので、同じような音でも分離することができる。この技術の中でも、対象とする(抽出したい)音源の方向が分からない状態でも音源分離可能な技術のことをブラインド音源分離と呼ぶ。
「分離集音技術」との関連は?
分離集音技術はブラインド音源分離技術の発展版。複数の音源が独立している(つまり何人かの話者がいる)という前提だけ確定していれば、それぞれの音源を明瞭に分離することができる。
環境雑音
多くの音源からの音が混ざり合った状態の中で、聞きたい音源の音以外の音のことを「環境雑音」や「周囲雑音」という。マイクでの集音の場合には、さまざまな方向から来る拡散性の雑音、特定の方向から来る方向性のある雑音、音がスピーカーを通して回りこむエコー、壁などで反射する反射音などが問題になる。
「分離集音技術」との関連は?
既に実用化されているマイクアレイ技術の多くは環境雑音を抑えこんで必要な音だけを抽出することを目的にしている一方、分離集音技術は、複数の音源、複数話者の音声の分離を目的としている。そのための技術は同時に環境雑音を分離して捨てることにも役立つ。
Copyright © ITmedia, Inc. All Rights Reserved.