OpenAIが「ChatGPT」の機能として「エージェントモード」をリリースした。今回は、ChatGPTのProプランに搭載されているエージェントモードを試し、ビジネスでの具体的な活用方法を検証する。
「ChatGPT」をきっかけに広がった生成AIブーム。最近ではAIエージェントが注目を集めています。これはRPAを生成AIの力で自律化させたようなもので、さまざまな業務を自律的に実行する技術です。ガートナーが2025年8月に発表した「日本におけるクラウドとAIのハイプ・サイクル:2025年」ではまだ黎明(れいめい)期にあり、企業での本格的な導入にはまだ時間がかかりそうです。
そんな中、OpenAIは7月、ChatGPTのアップデートに伴い「エージェントモード」という機能をリリースしました。ChatGPTの有料プラン(PlusもしくはProプラン)ユーザーであれば誰でもAIエージェントを使えます。
今回はChatGPTのProプランでエージェントモードを使ってみて、ビジネスでの活用方法を考えてみます。
エージェントモードは月額20ドル(約2959円)のPlusプランで月間40回、月額200ドル(約2万9589円)のProプランで月間月間400回利用できます。ChatGPTのプロンプト入力欄にあるプラスボタンを押すとメニューが表示され、エージェントモードを有効化することで利用できます。
エージェントモードで指示を入力するとチャット画面に仮想のPC画面が表示され、その中で生成AIがカーソルを操作やキー入力をしてさまざまな作業を実行します。「ブラウザー操作を引き継ぐ」を使えば、AIエージェントの作業を中断して、自分で仮想PCの画面を操作することもできます。
仮想PCには、Webブラウザ「Chromium」やオフィスソフト「LibreOffice」シリーズ、プログラミング環境として「Python」や「Vim」がインストールされています。
ChatGPTは「PowerPoint」(.pptx)形式のファイルも自動生成できるため、AIエージェントにプレゼン資料の作成を任せてみました。まずは、エージェントモードを使わずに「キーマンズネット」に関するプレゼンテーションを作成させたところ、以下のような成果物が生成されました。
これは単にテキストをpptx形式に変換しただけですが、調査からファイル生成まで数秒で完了するのは非常に便利です。
エージェントモードで作ったプレゼンテーションは以下のような内容です。
AIエージェントはまず、仮想PCでWebブラウザを開いてキーマンズネットについて調査しました。調査が終わると、LibreOfficeの「Impress」でファイルを作成し、PDFに変換して出力しましたが、24分もかかってしまい少し長く感じました。その間、別の作業を進めたり、たばこやコーヒー休憩を取れるほどの時間です。
エージェントモードを使った場合、処理時間は数十倍に増えましたが、情報量は体感的には約1.3倍程度です。デザイン面では、エージェントモード未使用の資料にPowerPointの付属テンプレートをワンクリックで適用すれば、社内向けの最低限の資料を瞬時に作成できます。総合的に見ると、AIエージェントが圧倒的に優れているとは言い切れない印象です。
次に、DWH(データウェアハウス)ベンダーの公式ニュースページやブログを調査してもらい、LibreOfficeの表計算ソフト「Clac」にまとめる作業を依頼しました。この一覧をRSSリーダーに登録し、毎日周回するようにすれば、最新情報をいち早くチェックできます。
試しに、エージェントモードで「DWH関連製品やサービスを開発、提供するベンダーの一覧を作り、LibreOfficeのCalcでシートにまとめてください。項目は、社名、主要な製品・サービス名、プレスリリースもしくはブログなど最新情報を発信しているページのURLです」という指示を与えました。
AIエージェントは30分かけて12社のベンダー名と製品名、WebページのURLをまとめてくれました。人間の仕事が早い方と比べると、やや時間がかかる印象です。挙げられたベンダーは確かにDWHベンダーとして押さえておきたい大手が多く含まれています。URLは、たまに見つからない場合や公式の情報発信ではないページのものも含まれていましたが、おおむね正確です。
Webブラウザを操作することでさまざまなSaaSを制御できるため、可能性は大いに広がります。ただし、注意も必要です。
まずは、アカウントへのログインです。AIエージェントはアカウントのIDやパスワードを保持しておらず、勝手なログインは大きな問題となるため、SaaSの利用時には一度エージェントの動作を停止し、人間が操作を引き継いでログインする必要があります。実際に仮想PCを操作してみると、入力から反映までに大きなラグがあり、使用感が非常に悪い点が気になりました。
また、AIの閲覧をブロックしているWebサイトにアクセスできない問題もあります。メディアなどは自社のコンテンツを守るため、ChatGPTを含む生成AIサービスのクローラがWebページにアクセスできないよう設定していることがあります。実際エージェントモードの動きを見ていると、よくページを読み込めない、アクセスできないというエラーが発生しています。エージェントモードでは出力までに数十分かかることも多いですが、そのほとんどはインターネットで検索してWebページを読み込めないで次に行く時間のようです。
AIエージェントをビジネスで使う意味は、作業を生成AIとユーザーで分担して同時に処理することで効率を倍加する点にあると思います。そして、現状ではまだ自分の分身として使うには頼りない印象です。もっと精度が上がれば、AIエージェントは黎明期から過度な期待期に移行できるでしょう。
現状のエージェントモードを使ってみてまず思ったのは、動作の遅さです。AIエージェントがカーソルを動かしてキー入力をして文章を読み込んでという一連の操作は人間と比べると早いのかもしれませんが「この作業をお願いします」「はい、完了しました」といった迅速な応答が返ってくるほどの速さはありません。仕事がそこそこ早い、ただ質がそこまで高いわけではない部下が作業したくらいの時間で成果物が出てきます。
その間に他の作業は可能ですが、微妙な動作速度のため、自分の作業が中断されやすいのが難点です。初めて部下を持ったときの気分を体験しているような感覚とも言えます。筆者も言われることがありますが「いつ頃作業が終わるかめどを教えてほしい」と切実に感じました。めどが分からない間、常に脳のリソースを少し割かないといけません。
評価は、ユーザーが出力をどれだけ信頼できるかによって大きく左右されます。自身で即座に正確さを確認できる内容であれば問題ありませんが、全体像を把握していない作業をAIに任せる場合、その出力の正確性を検証するのに、生成にかかった時間以上の労力が必要になることがあります。自分でやるよりは早いかもしれないですが、労力が減った実感はありません。
RPAであれば、設定したルールやロジックに間違いがなければ安心して出力を信頼できます。これがRPAとAIエージェントの大きな違いとも言えるかもしれません。
現時点では実践投入に不安が残りますが、生成AIの進化は非常に速いです。AIエージェントの時代はすぐに来るでしょう。そのときに今回の記事のような試行錯誤をやっているわけにはいきません。今のうちに「AIの上司力」を付けておくのがいいでしょう。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。