失った声を音声合成で取り戻す「ボイスバンク」とは？：5分で分かる最新キーワード解説（4/4 ページ）

» 2015年09月02日 10時00分公開

[土肥正弘，ドキュメント工房]

前のページへ 1|2|3|4 　　　　　　

HMMによる音声合成のメリットと、今後に残る課題は？

　HMMによる音声合成技術の主な長所として、

データサイズが小さいこと
声の混合、平均化などにより、誰のものでもない声の創出や特定の人の声の模倣が可能なこと

が挙げられる。

　この特長はボイスバンクプロジェクトに典型的な形で生かされ、他にもロボットの感情表現（東芝）や交通情報案内（HOYAサービス）、歌声合成（Chevio）など多数の実用化例がある。既にメッセージを伝えるという目的では支障がないレベルに達しているといってよい。

　また、特に騒音下での放送などの目的では、人間の声よりも明瞭に聞こえる音声を合成でき、ある意味では人間の声を超えた利用価値がある声を作り出している。

　加えてこの技術には言語依存性がほぼないので、例えば英語で開発した音声合成システムのデータを日本語用のデータに差し替えれば、システムにほとんど手を加えることなく、そのまま使用できる。

　既に40カ国以上でHMM利用の音声合成システムが実用化されたが、技術の言語非依存性が大きな要因だ。この特長を生かせば、例えば翻訳システムと組み合わせて、英語の声をマイクで拾い、その日本語訳を英語を発声しているその人の声色で出力するといった通訳システムも容易に実現可能になりそうだ。

　ただし、特定の人の声を模倣する目的では、まだ完全に区別できないほどには似せることができておらず、スピーカーでは分からなくともヘッドフォンで聞けば分かる程度の差がある。また、芸術的な表現は難しく、ナレーターの代わりはできても声優の代わりを務めるのはまだ無理だ。

　またもう1つの大きな問題がある。それは、特定の人の声を利用した犯罪に利用されかねないことだ。オレオレ詐欺のような犯罪や、音声を認証に使うシステムへのなりすましアクセスなどが懸念される。

　ただし、どれだけ上手に音声合成しても、人の耳では分からないが機械では検知できる音声の位相情報の差があり、判定システムを介せば人間の声か合成音声かは区別できる。また、息の有無を検知するマイクなどを利用して人間の声か否かを判別したり、音声出力に「透かし（ウォーターマーク）」を付加したりといった犯罪防止の仕組みも検討されている。いずれにしても、特定の人の声の再現を広範に実用化するには、社会的なコンセンサスが必要になるだろう。

　以上、今回は「ボイスバンク」プロジェクトの概要と、その背景となっているHMMを利用した音声合成技術について紹介した。現在では音声合成研究の先端領域として「ディープラーニング」が注目されるようになり、山岸准教授も研究対象をそちらにも広げている。

　こちらはHMMによる音声合成よりも、さらに関数を多層化してより深いレベルで音声などのデータの特徴を学習する技術だ。ビッグデータ解析や機械学習の研究の進歩がこれに結び付いた。こちらの技術も含め、音声合成技術は人間のQOLを向上させる1つのカギだ。ボイスバンクプロジェクトの国内実証実験の成功とともに、音声合成研究のさらなる発展を期待したい。

アイティメディアからのお知らせ

キャリア採用の応募を受け付けています

SpecialPR

ITmediaはアイティメディア株式会社の登録商標です。

失った声を音声合成で取り戻す「ボイスバンク」とは？：5分で分かる最新キーワード解説（4/4 ページ）

HMMによる音声合成のメリットと、今後に残る課題は？

関連するキーワード

HMM（Hidden Markov Model、隠れマルコフモデル）

ディープラーニング

音声透かし

関連リンク

アイティメディアからのお知らせ