プログラミングの現場でAIツールの選択肢は増えている。それでも開発者が選ぶのはClaude。ベンチマークだけでは語れない理由とは。
プログラムコードの生成やバグ修正、リファクタリング、テストコードの作成など、開発に伴うさまざまな作業をAIが支援できるようになり、開発者の生産性を高めるツールとして活用が進んでいる。今では、プログラマーがAIを日常的にコーディング支援ツールとして利用することも珍しくない。
もっとも、コーディングを支援するAIは1つではない。OpenAIの「OpenAI Codex」を組み込んだツールや、Googleの「Gemini」、Anthropicの「Claude」など、選択肢が増えている。
数多くのAIが登場する中、あるエンジニアが「いろいろ試しても、やっぱりClaudeだ」とする記事を公開し、コミュニティーサイトで話題になっている。ベンチマークで高いスコアを記録するAIもあるが、なぜ開発者はこぞって「やっぱりClaude」と言うのか。
冒頭でも触れたように、生成AIによるプログラミング支援ツールは急速に進化している。各社のAIモデルがコーディングベンチマークで高いスコアを記録しており、どのAIが最も優れているのかという議論も活発化している。
そうした中で、コミュニティーサイトで話題となっているのが、開発者のマニッシュ・ブサル氏が自身のブログに投稿した「Why Developers Keep Choosing Claude Over Every Other AI」(開発者が他のAIよりもClaudeを選び続ける理由)という記事だ。同氏はこの中で、実際の開発現場では多くの開発者がClaudeを選んでいると言及している。
ブサル氏によれば、新しいAIモデルが登場するたびに「コーディング性能が大幅に向上した」と話題になるものの、開発者が実際に試してみると、最終的にはClaudeに戻ってしまうケースは珍しくないという。その理由について同氏は、ベンチマークと実際の開発は別物だからだと説明する。
例えば、OpneAIのベンチマークデータセット「HumanEval」では、AIが単一の関数を生成し、ユニットテストに合格するかどうかによって性能が評価される。一方、より実務に近い評価を目的とした「SWE-bench」では、「GitHub」のIssueをモデルに与え、実際の開発に近いタスクを解決できるかどうかが測定される。こうした指標では、GeminiやOpenAI Codexなど、多くのAIが高い性能を示しており、単体のアルゴリズム問題などではClaudeより高いスコアを記録するモデルもある。
それでも多くの開発者がClaudeを使い続ける理由について、ブサル氏は「コードの出来そのものではなく、開発プロセスへの対応力」にあると指摘する。
実際のソフトウェア開発では、AIに関数を1つ書かせて終わりというケースはほとんどない。開発者は既存のコードベースを確認しながら修正を加え、エラーが出れば対応し、必要に応じて作業を細かいステップに分けて進めていく。さらに、途中で仕様を確認したり、別のファイルへの影響を考えたりする場面も多い。
例えば、次のような作業が連続して発生する。
つまり、ソフトウェア開発は単発のコード生成ではなく、「長い対話型のプロセス」というわけだ。
ブサル氏によれば、Claudeはこうした開発プロセスへの対応が比較的安定しているという。例えば、コードを変更する前に必要なファイルを確認する、不要な大規模な書き換えを避ける、作業途中でタスクを見失わないといった基本的な振る舞いが安定している点を評価している。
一方で、他のモデルについては、コードそのものの品質は高くても、作業途中で同じ処理を繰り返したり、意図しない修正を加えたりするケースがあり、人間の介入が増えがちだという。こうした違いは、AIの知能そのものよりも、開発ワークフローを守る規律に起因しているというのがブサル氏の見方だ。
また同氏は、AI企業の戦略もこうした差に影響している可能性があると指摘する。Anthropicによれば、同社APIの利用の約半分はソフトウェア開発関連で、ツール操作やエージェント型の作業に最適化されているという。一方、GoogleやOpenAIのモデルは、検索や翻訳、チャット、マルチモーダル処理など幅広い用途を想定して設計されており、コード生成に特化して最適化されていない可能性がある。
実際にコミュニティーサイトでも、AIコーディングツールを開発現場で活用しているユーザーからは、ベンチマークのスコアよりも、実際の開発ワークフローにおける使い勝手や信頼性を重視する声が多く見られる。
もっとも、この状況が今後も続くとは限らない。ブサル氏は、AIの進化は非常に速く、数カ月単位で勢力図が変わることも珍しくないと言う。
それでもこの記事から浮かび上がるのは、AIコーディングツールの評価は単純なベンチマークだけでは測れないという点だ。今後、どれほど高性能なコード生成AIが登場したとしても、開発現場で重視されるのは「どれだけ賢いか」よりも、「どれだけ安心して任せられるか」なのかもしれない。
上司X: AIのコーディング能力ってベンチマークで順位が出ているけど、実際の開発現場では必ずしもその順位通りに使われているわけではない、という話だよ。
ブラックピット: 新しいAIを試すけど、ブサル氏のように、結局、Claudeに戻ってくるということですか。
上司X: ああ、そうらしい。
ブラックピット: Claudeのコード生成能力が圧倒的に強い、ということではないんですよね?
上司X: AIの「賢さ」というより「開発プロセスをどれだけ安定してこなせるか」が重要だということだ。
ブラックピット: 開発者にとっては、ということですね。
上司X: 実際、プログラミングの現場では、コードを書く作業は全体の4割程度で、残りは調査や修正のプロセスだとブサル氏は言っているしな。
ブラックピット: まあ、僕なんて別にプログラマーでもないですから、その辺の事情は知りませんが。一流のプログラマーであるブサル氏が言うのであればそうなんでしょう。
上司X: うむ。コード生成においては、AIの賢さより開発プロセスの安定さが重要ということだ。どれだけ安心してコード生成を任せられるかが今後のポイントになりそうだ。それほど賢くなくても信頼できる部下、みたいな感じだろうな。キミの働きにもそんな期待をしてしまうオレだよ(笑)。
年齢:36歳(独身)
所属:某企業SE(入社6年目)
昔レーサーに憧れ、夢見ていたが断念した経歴を持つ(中学生の時にゲームセンターのレーシングゲームで全国1位を取り、なんとなく自分ならイケる気がしてしまった)。愛車は黒のスカイライン。憧れはGTR。車とF1観戦が趣味。笑いはもっぱらシュールなネタが好き。
年齢:46歳
所属:某企業システム部長(かなりのITベテラン)
中学生のときに秋葉原のBit-INN(ビットイン)で見たTK-80に魅せられITの世界に入る。以来ITひと筋。もともと車が趣味だったが、ブラックピットの影響で、つい最近F1にはまる。愛車はGTR(でも中古らしい)。人懐っこく、面倒見が良い性格。
素人がAIに作らせたコード、プロが見ると何点? エンジニアレビューで分かる危険性
いまさら聞けない「Claude Code」 できることと使用感を実践レビュー
「ChatGPT」最新モデル「GPT-5」、高性能だが知名度不足の「Claude」を“触って理解”
AI好きは知っているが、一般知名度が低い「Claude」でできること【「ChatGPT」比較レビュー】Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。