メディア

なんでもいいからとにかく突っ込め “AI活用できる会社”になるためのデータの集め方

生成AIを導入している企業はどんどん増えている。今回はAIサービスを提供するAI insideの渡久地択氏(CEO)に、生成AIを活用できる企業になるための考え方を聞いた。

» 2026年03月30日 10時00分 公開
[谷井将人キーマンズネット]

 生成AIを導入している企業はどんどん増えている。キーマンズネットが読者を対象に実施した「生成AIの利用状況に関するアンケート」(2026年2月実施)では、回答者のうち72.9%が「会社で認められたサービスを利用している」と答えています。特に「Microsoft Copilot」や「ChatGPT」「Gemini」などが人気でよく使われている。

 しかし、生成AIを使えば市場において優位に立てるかというとそうはいかない。上記のような生成AIチャットサービスはあくまで汎用(はんよう)AIだ。「当社の商品をアピールするにはどんな層が適切か」と聞いても、一般的に考えてどうかは答えられるが、当該商品の詳細を理解しているわけではないため、特別な回答は基本的に得られない。ユーザーのテクニックが同じならできることは同じになるはずで、それだけで優位性につながるものではない。みんなと同じものをそのまま使っていては、できることはみんなと同じだ。

 生成AIを上手に使ってビジネスにおいて“勝つ”ためには、自社データを生成AIに接続して自社の状況を把握したシステムにする必要がある。これができていれば、生成AIが「当社の製品は他社のものと違い○○という強みがあるため、現状アプローチできていない○○という属性の人々に新たにアピールすれば新規の市場を開拓できるでしょう」という具体的な提案をできるかもしれません。

 しかし、データを活用しようにもそもそもデータがないという企業も多いようだ。そんな状況で“AI Ready”になるにはどうすればいいのか。

 今回はAIサービスを提供するAI insideの渡久地択氏(CEO)に、生成AIを活用できる企業になるための考え方を聞いた。

渡久地択(AI inside CEO)

2004年に人工知能の研究開発を開始し、20年以上にわたり継続的な研究開発に取り組む。2015年に同社を創業し、2019年には東証マザーズ(現グロース市場)に上場。経営・技術戦略を指揮し、事業成長を牽引。「画像認識と自然言語の組合せ機械学習による文字認識技術」や「情報を匿名暗号化して交信する技術」、「匿名情報からの仮想人格生成とレコメンド技術」、「画像処理を用いた暗号化技術」、「帳票画像の圧縮転送技術」など、その他多数の技術特許を発明。

自社データを生成AIに繋げると何がうれしいのか

 生成AIチャットサービスは自社データを接続しなくてもある程度業務に使える。回答が一般的な内容の範囲だとしても、使いどころは十分ある。しかし、個別具体的な回答が欲しいときには面倒なことが起きる。

 例えば、見積書を作って、その内容について生成AIとチャットするとする。このとき、自社データをつないでいないと「この案件にはこういう背景があって、それは過去にこういうことがあったからです」という背景情報の説明が必要になる。

 「Salesforce」や「Slack」にある取引データや社内チャットのデータをつないでいれば、生成AIが背景知識を把握して応答できる。背景説明は簡単になり、場合によっては「過去のデータを見てみるとこういう事情がありました」と、ユーザーが知らない情報を持ち出せる可能性もある。

 「生成AIをビジネスで使うとき、全員が同じデータ、状況で戦うので自社の優位性が出せません。データをつないで始めて優位性が出ます。せめてデータの差異がないと、5年後生き残れるか分かりません」(渡久地氏)

なんでもいいからとにかく突っ込め 長期間準備する暇はない

 キーマンズの読者調査でもよく聞くのは「データがない」という声だ。実際にデータが存在しないことはない。例えばメールや社内チャット、議事録、契約書、請求書、領収書はデータだ。製造業なら機械から出てくるデータもあれば、作業を記録した動画や写真、会議の録音などのテキストではないデータもある。

 渡久地氏によると、データがない問題を分解すると3つの問題にできるという。

 「3兄弟と呼んでいる問題がありまして、1つはデータがデジタル化、構造化されていないという問題。2つ目はAIに間違ったデータを入れると精度が下がるんじゃないかという懸念、3つ目は正しいデータを入れ続ける運用が大変ということです」(渡久地氏)

 デジタル化、構造化されていないというのは、設計図などが紙の資料としてある、ノウハウが職人の頭の中にある、データにはなっているが生成AIが使いやすい形式になっていないといった状況を指す。

 しかし、これらの課題には根本的な勘違いがあるという。

 「これらはディープラーニング時代の話が残っています。昔はデータを学習させてPoCをして、うまくいきそうなら本格運用する時代が長かったです。そのときはデータを選別して学習させていたのでこういう話になります」(渡久地氏)

 自社専用のAI環境を作る方法は幾つかある。自社データを学習させたAIモデルを作る方法は、もはやAI開発で、計算資源もきれいなデータも欲しい。一方で、近年はRAGやMCPといった技術で、既存のAIモデルが自社データにアクセスできるようにすることが多い。これらはAIモデルの学習は基本的にしない。

 これは例えるなら「中途社員を自社に染める教育をする」のと「中途社員にドキュメント共有サービスの権限を与える」との違いに近いといえる。中途社員である以上、新卒社員に比べると基本的な社会人経験やスキルがある。学習させるというのはここに自社の正しい知識を教え込んで自社の社員として完成させていくようなイメージだ。

 一方で「Notion」や「Confluence」などのアカウントを付与して、ドキュメントをいつでも見られるようにして、資料を見れば仕事ができる状態にするのも、自社の事情を知っている中途社員を作る方法ではある。

 この2つでは欲しいデータについての常識が異なる。そこで渡久地氏が提案するのが、とにかく全てのデータを生成AIがアクセスできるところに置くことだ。

 「気にしないでとにかくデータを入れまくればいいです。自分より賢い生成AIがデータ(の要不要)を選別してくれます。人間が選別しようなんておこがましくて、生成AIがやった方が当然早いしコストも低いですよね。人間がやると2カ月かかってもまだできないなんてことになりますけど、生成AIならもっと早く終われる。取捨選択しないといけないとかメンテナンスが大変だとかは間違いですね。生成AIがやれまいいので」(渡久地氏)

3ステップで自社データを接続

 データが構造化されていないのも気にしなくていいという。とにかく生成AIがアクセスできるようにすれば、構造化を生成AIに依頼することもできる。

 もちろん、ガバナンスやセキュリティの問題でアクセスすべきではないデータには注意しなければならない。データの構造化をはじめとした前処理もできるなら回答品質を上げられるが、あくまでオプションだという。

 生成AIをビジネスで扱うに当たって重要な前提は、その進化スピードだ。今できないことが1年後には当たり前にできるようになっている状況で、データの準備に年単位の時間がかかるとすると、そのロスは事業にとって致命傷になり得る。データを接続しなくても最低限業務改善に使える生成AIを使いながらブラッシュアップするのと、時間をかけて準備して最初からきれいなデータを使える状況では、1年長く実践投入してきた前者の方が、ノウハウがたまっているだろう。

 自社データを生成AIとつなぐには3ステップあるという。「なんでもいいからとにかく突っ込め」はステップ1だ。ステップ2では、データにメタデータを付与するのではなく、生成AIに対してデータの扱い方を指定し、制御を高度化する。ステップ3では、つなぐデータ1つ1つにメタデータを付与することだ。メタデータがあれば生成AIはより高精度な回答を作りやすい。

 ステップ2と3の違いは、メタデータやそれに準ずる情報を、ルールのようにして全体に一括で適用するか、データ一つ一つに付けるかだ。

 ステップ1においてはなんでもいいからとにかく突っ込めで問題はないが「後から思い直せばこうすればよかった」と後悔することもあるという。実際には理想的なデータの接続方法があるが、前述の通り理想を求めて遅くなるより、現状できる範囲でとにかく早くした方がいいという。

 そんな中でも、あくまでもできるならやったほうがいいこととして挙げられたのが、どんなデータがあるのかをまとめた分類表や、専門用語などが書かれたマニュアルもアップロードすることだ。これはステップ2の簡易版ともいえるだろう。

 もう一つが画像をOCRして得られたテキストの整理だ。例えば領収書から「商品A10,000円×20−4000商品B300円×50税率10%」のようなテキストが読み取れたとして、生成AIでも解釈しにくい。これを「商品名,価格,個数,割引率,合計価格,税率」のようなフォーマットで「商品A,10000,20,2,196000,10」「商品B,300,50,0,15000,10」のように表現しなおした方が明確に精度の差が出るという。こういった作業は可能であれば動画や音声などテキストではないデータについてできるといい。

データの保管や接続は難しいのか

 全てのデータをとにかく生成AIがアクセスできる場所に保存するに当たって、現実的な問題の一つがストレージだ。日々生まれるデータたちを全て保存するとコストがかかるのではないか。

 「データってそんなにありますか? もし10TBあったとしても(ストレージコストは)別に高くないですよね」(渡久地氏)

 実際「Dropbox」の場合、小規模チーム向けの「Standard」は月額1500円(1人当たり)で合計5TB、企業向けの「Advanced」は月額2400円(1人当たり)で合計15TB保存できる。例えばMP4形式の動画ファイルなら、画質などにもよるが平日1日8時間の労働の様子を全て録画したとして、単純計算で7〜20年分の記録を残せる。

 もう一つがデータを生成AIに接続する方法だ。こちらもとにかく簡単にすることを考えるなら「Google ドライブ」にデータをアップロードして、Geminiで連携ボタンを押すだけで解決する。Geminiの場合はわざわざ連携作業をしなくても、Gmailや「Microsoft Excel」に生成AI機能が付属している。

 実際の作業において、データの接続そのものが難しいことはあまりないという。大変なのはガバナンスやセキュリティの問題だ。

 「作業自体は簡単です。着手に至るまでが大変で、どのデータにアクセスさせていいのか、どこのサーバでデータを処理するのか、データは学習されるのかといった気になる点が多すぎてできないという話ですね」(渡久地氏)

 まとめると、生成AIに自社データを接続して同業他社に対して優位性を持ちたいのであれば、時間をかけて入念に準備するよりも、とにかく今あるデータを接続して始めてしまう。これがAI Readyな企業になるための第1歩だ。

 生成AIの進化は早い。2022年に生成AIチャットサービスが登場したと思ったら、もはや東京大学の入試もパスでき、研究レベルの科学の問題も解ける、一般人より高度なタスクに対応するレベルになった。今ではAIエージェントが登場し、1人で仕事をできるようにもなり始めた。そんな中で「データがない」としり込みしているわけにはいかない。「とにかくやる」がキーワードになるだろう。

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。

アイティメディアからのお知らせ