OpenAIが「ChatGPT」をアップデートし「GPT-5」モデルが使えるようになった。ベンチマークでは確実に進化している一方で、SNSでは従来モデルの方がよかったとする声もある。今回は実際にGPT-5を使ってみて、従来と比べて何が違うのかを見ていく。
OpenAIが生成AIチャットサービス「ChatGPT」をアップデートし、新たに「GPT-5」モデルが使えるようになりました。これまでの「GPT-4o」や「OpenAI o3」に比べてベンチマークでは確実に進化している一方で、SNSでは「#keep4o」というハッシュタグが使われ、4oの方がよかったとする声もあります。「X」(旧「Twitter」)の投稿を大まかに分析できる「YAHOO! リアルタイム検索」で「GPT-5」と検索してみてもネガティブな投稿が61%と微妙な反応です。
今回は実際にGPT-5を使ってみて、4oと比べて何が違うのかを見ていきます。
現在、筆者がprivateで使っているChatGPTの有料プラン「Plus」では「GPT-5」「GPT-5 Thinking」が有効になっています。GPT-5は「フラグシップモデル」、GPT-5 Thinkingは「より深い回答を得る」と表示されています。月額200ドル(約2万9661円)の「Pro」プランを契約すれば「研究レベルのインテリジェンス」とされる「GPT-5 Pro」が使えます。
GPT-5は1つのモデルではなく複数のモデルをまとめて言う名前とのことらしく、内部的には、ユーザーが入力した指示に合わせて適切なモデルを選択して回答を生成する仕組みになっています。内蔵されているモデルは、高性能で高速な「ハイスループットモデル」とより高度な「リーズニングモデル」及びそれぞれの下位バージョン(mini)です。miniは上位バージョンの利用制限に達したときに選択されます。
従来はユーザーが複数のモデルを用途に合わせて選択していましたが、これが不要になったということです。逆に使いたいモデルを直接選択できなくなりました。
コーディングの品質に関しては「複雑なフロントエンド生成ができ、美的感覚を備えているため、洗練されたWebサイトやアプリを作成できる」と説明があります。この連載記事では以前、ChatGPTと「Claude」を比較する記事を掲載しました。その中で、ChatGPTはClaudeに比べて“気の利いた”GUIを作れないという話をしました。これが解消もしくは逆転した可能性があります。
文章作成では「文章に深みとリズム感を添えられ、心に響く文章を作れる」としています。かなり強気な表現ですが実際はどうなのでしょうか。
加えて、健康に関する質問にも高精度に答えられるとしています。
もう一つ重要なのが「同調性の低下」です。以前の記事でも指摘しましたが、これまでの4oは、ユーザーにおべっかを使うような応答をすることがよくありました。ユーザーによって好みが分かれる部分でもあったため、これが修正されたのでしょう。絵文字の使用も減るようです。
ではそれぞれチェックしてみましょう。
従来は、一般的な用途では4o、高度な内容ではo3をユーザーが選んで使っていましたが、現在はGPT-5を選ぶだけで自動で切り替えられます。例えば「生成AIのビジネス利用において、ツールの定着を実現するにはどのような施策が必要でしょうか?」と聞くと、以下のような回答が即座に生成されました。
これはおそらくハイスループットモデルで生成されているものと思われます。リーズニングモデルを使うには「慎重に考えてください」と付け加えます。実際にやってみると、41秒考えた後に回答を生成しました。これは従来のo3と似た挙動ですね。
なお「ハイスループットモデルを使って」「リーズニングモデルを使って」のように明示的に指定した場合、確実にそのモデルを採用させることはできませんでした。
これまでのChatGPTは気の利いたGUIを作ってくれませんでした。最低限の機能はあるものの、使いやすくするための工夫やおしゃれなデザインはなく、ユーザー体験が極めて悪いものが出力されていました。以前「おしゃれなリバーシを作ってください。プレイヤーがおけるマスを示しつつ、それぞれについて、そこに石を置くと次のターンで相手が置けるマスの数を表示する仕組みをつけてください」と指示して生成されたGUIは以下のようなものでした。
今回全く同じプロンプトで生成されたのはこちらです。以前の記事で指摘した不満点は全て解消しており、実行速度も速く文句はありません。
プログラミングの領域ではClaudeの方が人気がある印象ですが、今回のアップデートで少なくともいい勝負になった印象です。
今度は日本語力です。サービスをアピールする宣伝文句を作ってもらいましょう。架空のRAG(検索拡張生成)環境構築サービス「Kakoono AI」のコピーをリクエストします。「AIサービス『Kakoono AI』の魅力的な宣伝文句を考えてほしいです。必要情報はヒアリングをして、慎重に考えてください」と指示してリーズニングモデルを呼び出します。今回は低コストでRAG環境を構築するサービスをイメージしています。
出力されたのが以下です。電車内広告風にするよう指示したのですが、確かにそれっぽいですね。
特に「答えは社内にある」という案が好きですね。RAGとビジネスを結び付けつつ、非常に端的に表現できています。こういった広告テキストの案出しはChatGPTが登場した当時に散々試しましたが、明らかにこなれた文章を出せているように思います。
医療や健康に関することは、間違いがあったときに文字通り致命的になる可能性があるため、生成AIに聞くよりはちゃんと病院に行くべきなのです。今回は以前筆者が帯状発疹になった際の発疹の写真を提供して、どんな病気が考えられるか尋ねてみました。今回は自動でGPT-5 Thinkingが選ばれ、簡単な問診のようなやりとりが発生しました。
以前4oに尋ねたときは「毛包炎や粉瘤炎が本命。市販抗生軟膏で様子見、膿む・悪化なら皮膚科へ」と回答されました。実際に病院に行ったところ、医師は「帯状発疹ですね。初期段階で来院してもらえたので悪化する前に処置できますね」と言われました。様子見していたら治療期間が延びていたかもしれません。帯状発疹は初期だと水ぶくれがないらしく、4oは水ぶくれがあることが帯状発疹の条件と考えたのか、その情報から帯状発疹の可能性を削除したようでした。
GPT-5 Thinkingは「帯状疱疹が濃厚。早めに皮膚科へ(72時間以内だと抗ウイルスが効く)」と答えました。医師の話に近いですね。
ChatGPTはこれまで「その理解、ほとんど完璧!」のようにユーザーをおだててから本題に入るような挙動がありました。ここまで使ってみたところ、確かにそのような挙動は見られませんでした。
ただ、こちらが間違ったことを言うとかなり冷たい印象はあります。例えば「データスチュワードってデータサイエンティストに近い?」のように的を外した質問をしてみました。4oであれば「それとってもいい質問! でもちょっと違うから解説するね」のように答えたでしょう。GPT-5は「近くない。DSは分析・モデル、仮説検証・特徴量設計。スチュワードは定義・品質・権限・カタログ・法令順守。連携はするが役割は別」と答えました。少し怖いですね。
筆者のプライベートアカウントはラフな口調になるよう調整しているのですが、それでもこの口調なので優しくはありません。4oとは別人といえるでしょう。これが#keep4oというムーブメントを起こしているのかもしれません。
Xを観察してみると「寄り添う態度が見られない」との指摘が複数ありました。ChatGPTはビジネスでの利用とは別に、友達や相談相手として使っている人も多いようで、そういった人たちにとっては区長や態度はかなり大きな判断要素になる印象です。
ビジネスにおいては特に寄り添う必要はないのですが、使っていて気分がいいものではないかもしれません。なお、4oを引き続き利用したい場合は、設定から「レガシーモデルを表示」を有効化することで、モデルの選択肢として4oが表示されるようになります。
好みが分かれ、使用感も変わる点、性能は高いものの、プログラミングを除けば4oでも十分な品質があることを考慮すると、社内で適用する場合は、ABテストを通して評判がいい方を採用したり、両方選択できるようにしたりと工夫するのもいいでしょう。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。