Pepperからマツコロイド、萌えキャラ店員、自動運転にも活用される○○って何がすごい:イベントレポートアーカイブ(1/3 ページ)
「Hey Siri!」とiPhoneに話しかけたことはあるだろうか。実は、Siriの声にもPepperの声にもあの技術が使われていた。それだけではなく自動運転にも、報道でも、はたまた防災の分野でも活用シーンは広がるという。
「Hey Siri!」とiPhoneに話しかけたことはあるだろうか。iOSやmacOSなどに搭載された秘書機能アプリケーションソフトウェア「Siri」に問いかければ、質問に答え、アプリケーションを起動し、必要に応じて救急車を呼ぶというファインプレーを見せる。
このSiriの声には、音声合成という技術が使われている。「歌って」とお願いすれば、恥ずかしがりつつ歌を披露するが、Siriのつたなくもかわいらしい歌声はこの技術を使うことで実現している。Siriだけではなく、いわゆる「しゃべる」機械やロボットにはこの音声合成技術が使われることが多い。
「『Amazon Echo(アマゾン・エコー)』や『Google Home(グーグル・ホーム)』といったスマートスピーカーに代表されるように、これからのユーザーインタフェースは音声になっていくだろう」と話すのは、音声合成エンジンAITalk開発元であるエーアイでビジネスソリューショングループ マーケティングチームに所属する戸田悦子氏。8月9日にエーアイが開催したセミナー「人とAIをつなぐチャットbot」に登壇し、テキストに音声を乗せる音声合成エンジン「AITalk(エーアイトーク)」を説明した。実は、“あの店”の萌えキャラ店員にも同社の技術が使われているという。本稿ではその内容を基に、AITalkの特徴や導入事例を紹介したい。
音声合成って何?
音声合成とは、文字情報を音声にする技術のこと。例えば「今日はいい天気ですね」という漢字かな交じりのテキストに人の声を乗せ、音声データへと変化させる。音声合成の手法は幾つかあるが、ここではAITalkが採用している波形接続型音声合成を例に見ていこう。
最初のステップであるテキスト解析では、音声データにしたい文章に対して、最も適した読み方を分析する。「天気」という言葉の「テ」にアクセントが付く読み方が最適だと判定するのもこの段階。他にも、漢字の読み方、句読点以外のポーズの場所などを決定する。
次に音の強弱やイントネーションなどを分析する韻律予測を行う。最終的な音声合成処理では、最適な読み方の情報を与えられたテキストに対して、音声データから「t」「e」「n」「k」「i」といった音素を1つずつ当てはめ、音声波形として接続する。
もはや“合成音”ではない? 人の声は作れる
戸田氏は、同社が提供する音声合成技術の特徴を3つに分けて説明した。1つ目は、従来の機械音の印象が強い音声合成と比べて人に近い音声を実現することだ。「音声の基となる音声データベースを、実際に収録した人間の声で作成することで、自然な仕上がりとなる」と戸田氏は話す。
2つ目の特徴は、用途に合わせてさまざまな話者のタイプ、言語を用意していることだ。「大人」や「子供」「女性」「男性」といったタイプに「艶っぽい印象」「さわやかで若々しい声」といった個性が加わり、現在は17タイプの日本語話者を展開している。日本語の他、36種類の言語にも対応しており、日本語同様、複数の話者対応を選べる。
新たに音声を収録し、音声合成用データに変換して使用することも可能だという。この際、収録時間が短時間で済むというのが戸田氏の話す3つ目の特徴だ。従来、音声合成用データを作成する場合は、数十時間ほどかかるというのが一般的。一方でAITalkではそれが約1時間に抑えられる。「20〜30文字の文章を200ほど読めば必要な収録が完了する」(戸田氏)
現在、500以上の導入実績があるというAITalk。販売形態は、PCソフト型、Web API型(「AITalk WebAPI」)、機器・ソフトウェア組み込み型、サーバ設置型など、ニーズに合わせたライセンスを用意している。
Copyright © ITmedia, Inc. All Rights Reserved.