データを匿名化するための手法には、さまざまなものが存在する。最も単純な方法は、「個人情報が含まれるデータベースの項目を丸ごと削除してしまう」というやり方だ。全ての個人情報を削除してしまえば、個人が特定される危険性は限りなくゼロに近づく。しかしそこまで削除してしまうと、データそのものの利用価値がなくなってしまう。
一方、必要最低限の個人情報だけをマスキングすれば、データの特性はさほど大きく変わらず、ビッグデータ分析の精度もある程度担保される。しかし必要最低限のマスキングだけでは、今度は他のデータと照合することで容易に個人が特定できてしまう。
このようにデータ匿名化は、常に「匿名性」と「データの有用性」のバランスが問題となる。単純なデータの削除やマスキングでは、どちらかを重視すればもう片方がおろそかになってしまう。そこで、この両方を高い水準で両立できる匿名化のアルゴリズムが、長年統計学の分野で研究されてきた。
その過程では、さまざまなデータ匿名化の手法が編み出されてきたが、近年特に注目を集めているのが「k-匿名化」と呼ばれる技術だ。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。