本記事は2021年6月27日の「Users Digital」掲載記事をキーマンズネット編集部が一部編集の上、転載したものです。
オンラインを前提とした働き方が広く普及し、私たちの生活様式もだいぶ様変わりしてきました。業務のオンライン化を実現するさまざまな手段のうち、Google Workspaceに関して多くの情報を発信しておりますが、今回は議事録作成にも役立つ音声入力について、その機能や実際に動かしてみた様子、精度をお伝えしたいと思います。筆者自身が書き起こす場合と比較もしています。Googleの音声入力は業務利用に耐え得るものなのでしょうか。
音声入力は議事録作成や、ライティング、そして放送業界でいうキャプションなどの領域で脚光を浴びており、さらにはコールセンターなどにおける情報分析やデータ活用でも注目されています。
音声データは膨大にあるものの、音声のままだと扱いにくく、分析もしづらいので、テキスト化して扱いやすくするという理由があるそうです。
少し余談を挟みましたが、早速音声から文章を起こしてみたいと思います。
何を音声入力にインプットすべきか。ですが、今回はBFTが運用するオウンドメディアUsersDigitalのメディア紹介記事である『「UsersDigital」とは?』に書いている内容を一部抜粋しました。今回はこの文章を使って試してみたいと思います。
DX推進、デジタルシフトの重要性が叫ばれる中、日本はしばしばデジタル化が遅れている。DXが進んでいない。と指摘されるようになりました。必ずしもその指摘が正しいとは限りませんが、諸外国に比べ、劣後してしまっている感は否めません。日本社会のITに対する考え方やIT産業の構造の影響もあり、企業のIT部門は少ない人数で多くの仕事を抱える必要があるようにも思えます。そうした環境下では、デジタル化やDX推進はIT部門が考えるべきだ。と言う話も無理のある話ではないかと思います。最も、DXそのものが「自らを、自らのビジネスを変革させる」ことだとすれば、なおさらIT部門だけが担うべき性質のものではないことは明白ではないでしょうか。
出典:UsersDigital『「UsersDigital」とは?』,https://www.users-digital.com/about/,(2021/07/30)
自分で読み上げればいいだけの話ですが、シャイな筆者の性格上、「Amazon Web Service」の機能である「Amazon Polly」を使おうと思います。
Amazon Pollyは音声合成技術を用いて文字列を音声にしてくれるサービスで、入力した文章を立派な声優の声で読み上げてくれます。一部ラジオ局などで、大規模災害時など緊急時におけるアナウンサー到着遅延問題やアナウンサー疲労軽減を目的とした活用を模索していると聞きます。
こちらが、そのPollyに入力した実際の文字列です。DXをどうしても「デラックス」と読み上げるのでカタカナでどうにか誘導しています。単語を事前に登録することもできますが、一つだけだったので、文章を変えています。多少不自然なところはありますが、声がすてきです。この音声ファイルを使って文字起こしを試したいと思います。
Googleドキュメントを開いて「ツール」→「音声入力」を選ぶか、「Ctrl+Shift+S」で音声入力機能を呼び出すことが可能です。
初めて使用する場合は、ブラウザがマイクにアクセスするための許可を求められる場合があります。許可してあげましょう。
実際に音声入力をしている様子を録画し、GIFファイルを作成しました。リアルタイムで文字が入力され、かつ途中で修正されていく様子が見られます。ファイルサイズの問題で画質が悪く申し訳ありませんが、動いている様子をご覧頂ければと思います。
荒いGIFで見にくかったとは思いますが、お気付きの方もいらっしゃるでしょう。そう、このパターンでの精度はかなり低いモノでした。きっと筆者が自分で話すのをやめてAmazon PollyのTakumiさんに頼ったからなのでしょう。
上記の実験は、AI音声合成技術が作り出したテキスト音声をAI音声認識技術が文字起こししているので、不思議な気持ちになります。
この結果だけで、Googleさんの音声認識精度が悪いという話になるのは望ましくないので、追加で筆者がゆっくり話してみた内容を認識させることにしました。
またまた荒いGIFで恐縮ですが、だいぶマシな結果になっていそうです。この二つの音声入力結果を比較するため、簡単に文章の比較ができるツール「文章類似度算出(速攻ハック版)」でそれぞれ原文との類似度を調べてみました。また、音声による入力と対比するものとして、手入力したものとの精度も比較しました。以下にまとめてご紹介します。
前述の通り、AIが話して、それをAIが書き起こすという夢のような話は、まだ夢なのでしょうか。今回テストしたパターンの中で、類似度は最も低く71.5%でした。
筆者が比較的ゆっくり話したことも影響していると思われますが、類似度はぐんと上がって87%になりました。この程度の精度であれば少し手直しすれば使えるレベルと言って良いでしょう。
最後にAIで音声入力したものと比較するものとして、手入力も試してみました。筆者がスマホの画面を見ながらできるだけ早くタイピングしたのですが、やはりマッチ度は一番高く96.4%でした。もちろん、タイピングが得意な方がやればもっと早く、精度の高い文章を書き起こせると思います。
ここまで類似度を軸に2つのパターンを比較しましたが、類似度に関して言えば人間のタイピングに勝ることはまだ難しいということで、同じ文章を起こすためにかかった時間も表でまとめてみました。
Amazon PollyTakumiさんの音声 | 普通のおじさんの音声 | 普通のおじさんの手入力 | |
---|---|---|---|
所用時間 | 2分22秒 | 1分11秒 | 2分30秒 |
マッチ度 | 71.5% | 87% | 96.4% |
Amazon Polly Takumiさんの検証結果が“いまいち生きていない感”が否めませんが、ご覧の通り、普通のおじさんがタイピングした場合に比べると、半分以下の時間で同程度の文字数を書き起こしていることになります。ちなみに、筆者は「普通のおじさん」と言っても、エンジニアとして業務でPCを使っているので、タイピングが遅いというのことはないと思っています。
この結果を見る限り、Googleの音声入力は精度を求めるよりも、速度を求める場合に向いているといえるのではないでしょうか。AI技術は進歩し続けるので、そのうち精度も底上げされるとは思いますが。
いかがでしたか。音声認識技術を用いたGoogleの音声入力ですが、現時点で精度は“完璧”とは言えず、使うシーンは選ぶようです。使い方を工夫すれば、実際の業務で使えるレベルに達していると言えるのではないでしょうか。
文章を書くことの多い筆者としては、下書き用としてマイクに向かって一人で話して使ってみようかと思いました。もちろん、周りに誰もいないときですが。Google Workspaceに関する別の記事も合わせてご確認ください。
本記事は2021年6月27日の「Users Digital」掲載記事「Googleドキュメントで 音声入力 (音声文字起こし)を試してみた! 文字起こしの精度はどんなものか? Google Workspace使いこなし」をキーマンズネット編集部が一部編集の上、転載したものです。
“人とシステムをつくる会社”BFTが、生きたIT活用ノウハウをお届けするメディア「Users Digital」。「テクノロジーをユーザーの手に」をテーマに、難しく聞こえるIT活用も身近なものとして感じられるよう、利用する場面(ユースケース)やメリットにフォーカスして、分かりやすく、お届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。