検索
連載

暗号化DBを復号せずにデータ分類する「暗号化データマイニング」とは?5分で分かる最新キーワード解説(5/5 ページ)

復号時に読み取られることを回避すべく暗号化したままデータ分類を行う「暗号化データマイニング」が登場。暗号化の限界突破となるか。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
前のページへ |       

「暗号化データマイニング」の今後

 暗号化データマイニングは特にプライベートデータを統計的に利活用するサービスに好適と考えられる。また企業内の情報の一部をパートナー企業や顧客に公開するサービスにも生かせよう。また、さまざまな研究領域や企業活動で収集されたビッグデータを、学術研究者が研究の材料に使えるよう、クラウド上のリポジトリを作る動きが見られる。

 データ源を秘匿しながら、データの一側面だけを統計情報として、安全に利用できる暗号化データマイニングは、ビッグデータ解析研究の基礎づくりのための技術としても活用できそうだ。NICTでは、この技術開発の成功を基に、さらに暗号化データマイニングの高速化に取り組んでいる。

関連するキーワード

UCI機械学習リポジトリ

 米カリフォルニア大学アーバイン校が運営する、機械学習やデータマイニングに関するデータの配布を行うデータリポジトリ。機械学習コミュニティーへのサービスとして現在341のデータセットを公開している。研究目的であれば誰でもデータセットをダウンロードできる。各データセットを利用した論文が多数あり、同サイトで一覧できる。

「暗号化データマイニング」との関連は?

 NICTの実験では同リポジトリからのデータが利用された。本文にある糖尿病に関するデータは全体で768件あり、そのうち最初の576件で学習を行い、残りの192件で自動分類を行った。その結果は、暗号化なしの場合でも、暗号化した場合でもほぼ一致した。実験で利用したリポジトリからの一番大きなデータセットは3万件だったという。

 このようなリポジトリの存在は、特にビッグデータ対象の学術研究にこれからますます重要なものになってくるだろう。日本でも、国立情報学研究所(NII)による情報学研究者が共同利用可能な情報学研究データリポジトリなどの例がある。このような共同利用可能なデータの公開は、ビッグデータ関連研究に大きな意義がある。また暗号化データマイニングの仕組みは、将来的にこのような研究データ公開の際にも役立てることができそうだ。

SPHERE(スフィア)

 Security-updatable Public-key Homomorphic Encryption with Rich Encodingsの略。2015年にNICTが開発した準同型暗号方式。暗号化したままセキュリティレベルの更新が行えるため、100年以上の長期間にわたって安全にデータを扱うことが可能とされる。

「暗号化データマイニング」との関連は?

 今回の実験に利用された準同型暗号方式がSPHEREだ。準同型暗号方式は世界の研究機関や民間企業で盛んに研究されており、日本ではNICTの他、富士通研究所、日立製作所、NTTセキュアプラットフォーム研究所、NECなどが研究に取り組んでいる。

暗号化データベース検索

 「秘匿検索」とも呼ばれ、暗号化されたデータベースをそのまま検索する技術。データベース内容の復号を必要としないので安全性が高く、検索キーワードもランダムに暗号化した状態で検索処理ができるようにすると検索キーワードを盗聴してコンテンツを推測することも防げる。暗号方式としては従来の公開鍵暗号方式が利用できる。

「暗号化データマイニング」との関連は?

 暗号化したまま処理を行う「暗号化状態処理技術」の1つに分類できるという点では同じ。本記事で紹介した暗号化データの分類の他、暗号化データベース検索、暗号化データ演算(準同型暗号技術による演算)、暗号化データを復号せずに別の鍵で復号できるようにする「秘匿暗号化」技術が暗号化状態処理技術に含まれる。

Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る