検索
ニュース

国交省はどうやって「非構造化データの山」を使えるデータにしたのか? AI活用術AWS Summit Japan 2025

AWS Summit Japan 2025で国土交通省は、AIを活用し、非構造化データを構造化して再活用するプロジェクトの概要について説明した。同プロジェクトではツールを独自開発して死蔵データを活用できる形に変換している。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 2025年の「AWS Summit Japan」で、国土交通省の内山裕弥氏(国土交通省総合政策局モビリティサービス推進課 総括課長補佐 Project LINKS テクニカル・ディレクター)が登壇し、行政機関が保有する膨大かつ多様な非構造データを、大規模言語モデル(LLM)を活用して整理・利活用する手法について紹介した。

国交省はAIをどう使って現場のデータを整理したのか

 内山氏は、行政機関が保有する情報の多くが紙媒体や「Word」「Excel」やPDFなど非構造化データであり、それらの活用の妨げとなっている現状について話した。国土交通省にある蓄積した統計データや各種報告書は、様式が統一されておらず、手書きの修正や判子などが含まれるため、これまでの技術ではデータ化が困難だった。

 こうした行政情報をデータとして再構築し、分野横断的に活用するためのDX推進プロジェクトとして、2024年度に本格的に始動したのが「Project LINKS」だ。これまで棚や地下室に眠っていたり、ストレージの奥底に埋もれていた行政情報をデータとして再構築することを「米から餅になったものをもう一度米に戻す」とし、プロジェクトの核であると述べている。

photo
内山裕弥氏(国土交通省総合政策局モビリティサービス推進課 総括課長補佐 Project LINKS テクニカル・ディレクター/「AWS Summit Japan 2025」公式配信動画より)

 同プロジェクトでは非構造データを構造化データに変換する「LINKS Veda」というソリューションをフルスクラッチで開発した。これは紙やPDFなどの非構造化文書をアップロードすると、事業者の名前や申請日といった指定した項目情報をLLMが自動的に抽出し、テーブルデータとして生成するというもの。デモでは船舶事故報告書をはじめ多様なフォーマットの文書から、事故発生日や発生場所などの情報を抽出する様子が披露された。

 内山氏は様式が統一されていない非構造データから正確な情報を抽出するために、表記揺れやレイアウトの違いを吸収するLLMの活用が不可欠だと強調。行政機関での利用に際し、LLMによるハルシネーションを防ぐため、複数のLLMエージェントにプロンプトを与えて結果を比較し、不正確な値にアラートを出す独自の仕組みを導入した。

 データガバナンスと標準化に関する取り組みも重要な論点として挙げた。データ生成から活用、オープンデータ化までを一貫して実行する仕組みをLINKS Vedaに構築することで、内部での再利用だけでなく、新しいビジネス創出やオープンイノベーションに貢献できるようにした。セキュリティやプライバシーへの配慮、法令に準拠したデータ利用が前提であることも強調した。

 LINKS Vedaで生成した構造化データを活用する具体的なアプリケーションも複数紹介した。ドローンに関する飛行運行を分析する「LINKS FLIP」、トラック運送事業者の労働生産性を可視化する「LINKS TRAX」、貨物流動データを分析しモーダルシフトの効果を予測する「LINKS EFTR」などが挙げられ、生成したデータを活用アプリケーションにシームレスにつなげる重要性を示した。

 今後も書類に記載の「丸を付ける」といった前近代的な形式の情報を読み解く技術など、さらなる精度向上を目指し、ファインチューニングやビジョンLLMのモデル化を検討する。この取り組みを継続的に発展させ、他省庁への展開も視野に入れることで、行政業務全体の変革とデータ活用の加速に貢献したいという展望が語られた。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る