AIの台頭で音声入力の時代が来る 業務はどう変わるのか
次世代のAIベースの音声技術ツールは、組織のより広範囲に影響を与える。ITリーダーが考慮すべき3つの音声技術のトレンドを探ってみよう。
幅広い分野において、何十年も前から存在する音声技術は、AI(人工知能)の登場によって急速に進化している。
AIの台頭で音声入力の時代が来る 業務はどう変わるのか
もはやこの分野では、音声認識と音声からテキストへの文字起こしの精度だけが関心の中心ではない。AIに支えられ、今日の音声の文字起こしは自動化され、ほとんどのビジネスのシーンでリアルタイムの文字起こしが十分に可能になっている。音声からテキストへの変換は完全に正確なものではないが人間による文字起こしに匹敵するレベルであり、はるかに速く、わずかなコストで実践できる。
一部の人々にとっては、文字起こしがAIベース音声技術の唯一のユースケースかもしれないが、職場でのコミュニケーションとコラボレーションの分野では、それはほんの始まりにすぎない。過去6年間、私は「Enterprise Connect」で毎年このトピックに関する最新情報を発表してきた。2024年のカンファレンスで議論された、ITリーダーが考慮すべき3つの音声技術のトレンドを探ってみよう。
1. AIは音声技術を基盤として発展する
AIによる文字起こしは基本的な文字起こしの域をはるかに超えている。AIを活用したアプリケーションの多くは、リアルタイムの文字起こしやリアルタイムの翻訳、会議の要約、会議後のアクションアイテムの整理など、Unified Communication as a Service(UCaaS)の主要な機能を備えている。一部のユースケースは音声にのみ適用されるが、他のユースケースはカレンダーなどの他のアプリケーションと連携するものだ。
より最近のアプリケーションは生成AIに依存しており(注4)、音声またはテキストのプロンプトによる電子メールの自動送信やメモ、ブログ投稿を実現できる。多くの従業員はおそらく音声の使用を好むだろう。
現在の状況は、従来の音声技術をベースにしている。しかし、AIによって、ユースケースはより幅広くなり、音声認識だけに使用されるのではなく、ワークフロー全体に統合される。
ITリーダーは、潜在的なUCaaSを評価する際や、既存の環境を最新の状態に保つ方法を検討する際に、これらの機能が重要な判断材料になることを予想する必要がある。これらのAIベースのアプリケーションはいずれもまだ発展途上であり、音声の正確性という点でも、他のワークプレースツールや生産性向上ツールとの統合性という点でも、改善を続ける必要がある。
2.アプリケーション
ITリーダーはこれらの新機能を評価するときに、大局を見失ってはならない。これらのアプリケーションは主に今日の人々の働き方に適用され、特定のタスクを非常に上手くこなすポイントプロダクトと見なされがちだ。しかし、AIは、これまでのどのようなものよりも速く進歩している。現在、これらのタスクの多くはほぼマスターされており、AI音声技術に基づくイノベーションの次の波は、組織全体に影響を与える規模で展開されるだろう。
その一例が会話型AIだ。チャットbotをより会話的で人間的なものにすることで、コンタクトセンターでのセルフサービスをより使いやすいものにできる。今日のチャットbotはまだ完璧ではないが、今では企業などに幅広く導入されており、従業員はそれらをデジタルアシスタントとして使用している。
大規模言語モデル(LLM)はAIの次の大きな段階だ。ここでの主なポイントは、企業がAIアプリケーションをより効果的にするために、あらゆる形態のデジタルコミュニケーションを取り込むことに価値を見出しているということだ。テキストやビデオはデジタル化されて久しいが、音声の多くはデジタル化されていない。日常的なコミュニケーションの大半が音声をベースとすることから、AIにとって貴重なデータ入力となるこれらの情報(ダークデータとも呼ばれる)を取得することへの関心が高まっている。
LLMの開発と管理は急速に進化しているが、これはAIの性質によるものだけでなく、経営幹部がLLMの可能性を競争上の差別化要因として認識しているためでもある。実際、AIの言語モデルには多くの種類があるため、ここでのLLMへの言及は単純化したものだ。ほとんどのITリーダーはデータサイエンティストではないため、この領域では外部の専門知識が価値を持つ。音声がこのトレンドの中心であるため、ITリーダーは音声技術についてより戦略的な視点を持つ必要がある。
3.ITの戦略的な意味
AIが音声やその他のコミュニケーションに関わる技術革新の大部分をけん引する中、IT部門が音声技術のレガシーモデルを乗り越える必要があるのは明らかだ。音声技術のトレンドは、文字起こしの精度を成功の指標とするような単純なものではない。
より重要なのは、AIが音声アプリケーションを他のあらゆるものと結び付け、ワークフローやプロジェクト管理、個人の生産性、チームベースの成果と統合していることを認識することだ。日常的な会話は、それがどこで行われるものであれ、依然として固有の価値を持っているが、AIによって、他のデジタルストリームと融合すると、その価値はさらに高まる。
これこそが、企業における音声技術の戦略的な意義だ。これらのアプリケーションは、主にUCaaSを通じて、従業員のコミュニケーションとコラボレーションの効率化を支援する上で重要な役割を果たすだろう。しかし、より大きなビジョンは、AIのビジネス上の価値がどこにあるのかを特定することである。
データはAIに生命を与える酸素であり、データが多ければ多いほど、その恩恵は大きくなる。ほとんどの組織は、ダークデータのごく一部しか取得していないため、AIに関する計画を検討する際に音声技術が真価を発揮するのはここからだ。
Copyright © ITmedia, Inc. All Rights Reserved.