データを匿名化するための手法には、さまざまなものが存在する。最も単純な方法は、「個人情報が含まれるデータベースの項目を丸ごと削除してしまう」というやり方だ。全ての個人情報を削除してしまえば、個人が特定される危険性は限りなくゼロに近づく。しかしそこまで削除してしまうと、データそのものの利用価値がなくなってしまう。
一方、必要最低限の個人情報だけをマスキングすれば、データの特性はさほど大きく変わらず、ビッグデータ分析の精度もある程度担保される。しかし必要最低限のマスキングだけでは、今度は他のデータと照合することで容易に個人が特定できてしまう。
このようにデータ匿名化は、常に「匿名性」と「データの有用性」のバランスが問題となる。単純なデータの削除やマスキングでは、どちらかを重視すればもう片方がおろそかになってしまう。そこで、この両方を高い水準で両立できる匿名化のアルゴリズムが、長年統計学の分野で研究されてきた。
その過程では、さまざまなデータ匿名化の手法が編み出されてきたが、近年特に注目を集めているのが「k-匿名化」と呼ばれる技術だ。
k-匿名化とは、幾つかの個人情報の項目を、データが曖昧になるよう加工することで、同じ個人情報の属性を持つデータが必ずk件以上存在するように匿名化を行うという手法。言い換えれば、個人が特性される可能性を「k分の1」にまで低減するということだ。
k-匿名化は2006年ごろに学会で初めて論文が発表され、その後各研究機関やベンダーで実用化のための研究が進められてきた。k-匿名化はシステムに高い処理負荷を掛けるため、特に処理時間短縮のためのさまざまな方法が研究され、その一部は既に実用化されている。
現在では複数のベンダーから、k-匿名化を採用したデータ匿名化ソリューションが提供されている。単純な削除やマスキングと比べ、はるかに個人を特定されにくい形にデータを匿名化でき、かつデータの分布や特性を残すことができるため、ビッグデータ利活用のためのデータ匿名化の手段として大きな期待が集まっている。
k-匿名化は、その優れた匿名化アルゴリズムはもちろんのこと、kの値で匿名化の強度を定量的に示せる点が高い評価を受けている。k値が大きくなれば匿名性は高まるが、その分データの有意性は低くなる。逆にk値を小さく取ればデータの有意性は高まるが、同時に個人特定のリスクも高くなる。また、データ匿名化の強度を明確に示せることは、万が一情報漏えい事故が発生してしまった際の対外的な説明責任を果たす上でも有効な手段だといえる。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。