失った声を音声合成で取り戻す「ボイスバンク」とは?:5分で分かる最新キーワード解説(4/4 ページ)
病気で出すことが難しい「本人の声」を取り戻す音声合成技術研究プロジェクト「ボイスバンク」が始動した。音声合成の最前線に迫る。
HMMによる音声合成のメリットと、今後に残る課題は?
HMMによる音声合成技術の主な長所として、
- データサイズが小さいこと
- 声の混合、平均化などにより、誰のものでもない声の創出や特定の人の声の模倣が可能なこと
が挙げられる。
この特長はボイスバンクプロジェクトに典型的な形で生かされ、他にもロボットの感情表現(東芝)や交通情報案内(HOYAサービス)、歌声合成(Chevio)など多数の実用化例がある。既にメッセージを伝えるという目的では支障がないレベルに達しているといってよい。
また、特に騒音下での放送などの目的では、人間の声よりも明瞭に聞こえる音声を合成でき、ある意味では人間の声を超えた利用価値がある声を作り出している。
加えてこの技術には言語依存性がほぼないので、例えば英語で開発した音声合成システムのデータを日本語用のデータに差し替えれば、システムにほとんど手を加えることなく、そのまま使用できる。
既に40カ国以上でHMM利用の音声合成システムが実用化されたが、技術の言語非依存性が大きな要因だ。この特長を生かせば、例えば翻訳システムと組み合わせて、英語の声をマイクで拾い、その日本語訳を英語を発声しているその人の声色で出力するといった通訳システムも容易に実現可能になりそうだ。
ただし、特定の人の声を模倣する目的では、まだ完全に区別できないほどには似せることができておらず、スピーカーでは分からなくともヘッドフォンで聞けば分かる程度の差がある。また、芸術的な表現は難しく、ナレーターの代わりはできても声優の代わりを務めるのはまだ無理だ。
またもう1つの大きな問題がある。それは、特定の人の声を利用した犯罪に利用されかねないことだ。オレオレ詐欺のような犯罪や、音声を認証に使うシステムへのなりすましアクセスなどが懸念される。
ただし、どれだけ上手に音声合成しても、人の耳では分からないが機械では検知できる音声の位相情報の差があり、判定システムを介せば人間の声か合成音声かは区別できる。また、息の有無を検知するマイクなどを利用して人間の声か否かを判別したり、音声出力に「透かし(ウォーターマーク)」を付加したりといった犯罪防止の仕組みも検討されている。いずれにしても、特定の人の声の再現を広範に実用化するには、社会的なコンセンサスが必要になるだろう。
以上、今回は「ボイスバンク」プロジェクトの概要と、その背景となっているHMMを利用した音声合成技術について紹介した。現在では音声合成研究の先端領域として「ディープラーニング」が注目されるようになり、山岸准教授も研究対象をそちらにも広げている。
こちらはHMMによる音声合成よりも、さらに関数を多層化してより深いレベルで音声などのデータの特徴を学習する技術だ。ビッグデータ解析や機械学習の研究の進歩がこれに結び付いた。こちらの技術も含め、音声合成技術は人間のQOLを向上させる1つのカギだ。ボイスバンクプロジェクトの国内実証実験の成功とともに、音声合成研究のさらなる発展を期待したい。
関連するキーワード
HMM(Hidden Markov Model、隠れマルコフモデル)
音声認識や自然言語処理などにも利用される、確率的に状態遷移する事象を統計的に捉え、ある入力に対して目的に沿って最も適切な出力を行うための関数を作り出す技法。音声認識の場合は、たくさんの人がそれぞれの別の発音や発声で話す同じ単語から余分な要素を抜いて、その背後に隠れた単語の共通パターンを導き出す。音声合成に応用すると、テキストに対応する最適な音声の関数を選んで処理して自然な音声を再合成できる。
「ボイスバンク」との関連は?
ボイスバンクの出発点であり、技術的な中核になっているのがHMMだ。ボイスバンクでは、HMMを利用した音素モデル(関数)のデータベースを作るために、多くの人の声を集めている。その音素モデルの中から、入力に従って最適なモデルを選び、出力したい声色の基本周波数(声帯の振動を模す)やスペクトル(声道の共振する周波数を模す)などをパラメータにして処理することで、目的の声色に近い音声を出力できる。
ディープラーニング
大手SNSの顔認識機能を始め、ビッグデータを対象にした自動認識技術などに使われている機械学習技術の1つ。人間の脳のニューロンを模倣したニューラルネットを幾つも重ねて、より深い機械学習が行える。人工知能などに適用すると、人間が自然な会話口調で命令すれば思った通りに機械が動くというような、これまでにない自動化を可能にすると期待される。
「ボイスバンク」との関連は?
直接の関係はないが、音声を関数化し機械学習を行う枠組みは共通する。山岸准教授のディープラーニングの研究では、機械に喋らせたい文章を音声の周波数特徴量へ自動変換することを、合計10階層が積み重ねられたニューラルネットを用いて実現した。
音声透かし
音声データの中に、人間の耳では聞き取れないように加工した一定パターンの音を忍ばせる技術のこと。著作権のある音声データの出どころが分かるようにしたり、制御信号を組み合わせて再生端末の側の処理で字幕やガイド音声、手話や点字の表示を音声に同期させたりするシステムなどが登場した。
「ボイスバンク」との関連は?
ボイスバンクプロジェクトで利用する音声合成システムは、特定の人の声に極めて似た音声を合成するため、悪意を持った他のユーザーに悪用される可能性もある。悪用防止のための1つの対策として、合成音声に音声透かしを入れておくことが提案された。
Copyright © ITmedia, Inc. All Rights Reserved.