TOP

セキュアAI研究所

お問い合わせ

研究メンバー

運営会社

RSS feed Atom feed

セキュアAI研究所

- AIセキュリティに関する最新論文・技術紹介ブログ -

Membership Inference Attacks On Neural Networks

カテゴリ: steal leakage

概要

ブラックボックス設定で(DNNベースの)分類器の学習データを推論する攻撃手法。
その名も「Membership Inference Attacks(メンバーシップ推論攻撃)」。

攻撃対象の分類器(以下、標的分類器)に正常な入力データを与え、標的分類器から応答された分類結果を観察することで、入力したデータが分類器の学習データに含まれているか否か(=メンバーシップか否か)を特定することができる。仮に、顔情報やライフスタイルに関する情報といった高度なプライバシー情報を学習した分類器に対してメンバーシップ推論攻撃が行われた場合、プライバシー侵害が発生することになる。一例として、近年プライバシーや自由の侵害などを理由に反対意見が増加している「顔認識技術を含む集団監視システム」のメンバーシップが推論された場合、匿名を条件に顔画像などを提供した人物に不利益が生じることになるだろう。筆者の知る限り、2016年頃から同種の攻撃手法は知られているが、医療データや顔画像・音声などを学習した分類器が登場してきた近年、改めて注目が集まっていると考える。

Adversarial Attacks and Defense on Texts: A Survey character-level編

カテゴリ: NLP adversarial

概要

NLPのadversarial attack, defenseのサーベイ論文。 単語表現などに微弱なノイズを加えるものではなく、文字や単語、文単位での入れ替えなど、実際の文章に対して変換を加えるものに限定して紹介している。 またこれら攻撃手法に対して防御手法も同時に紹介している。

サーベイ論文で内容も多いため、いくつかに分割して紹介していきたいと思う。

MNISTの手書き数字を分類したらシステムが乗っ取られる話

カテゴリ: code execution

概要

TensorFlow models are programs
これは、著名な機械学習プラットフォームであるGoogle TensorFlowの「Using TensorFlow Securely」の冒頭に記載されている文言である。TensorFlowには、学習済みモデルをファイルに書き出す、または、学習済みモデルをファイルから読み込む機能が備わっている。これにより、一度学習して作成したモデルの再利用や、モデルの第三者への配布を可能にしている。とても便利である。しかし、もし第三者から提供された学習済みモデルが悪意を持って作られていたらどうだろうか?

TensorFlowの学習済みモデルには、学習済みの重みやバイアス、Optimizerなどを含めることができるほか、Lambdaレイヤを使用することで任意の関数をも含めることができる。当然ながら、任意の関数には任意のコードを記述することができる。このため、悪意のあるコードが埋め込まれた学習済みモデルを読み込み、実行することで、モデルが稼働するシステム上で任意のコードを実行することが可能となる。仮にモデルが高位の権限で稼働している場合、システムの乗っ取りやデータの改ざん、機微情報の窃取、そして、システムの破壊など、甚大な被害が発生することになる。

そこで本ブログでは、あまり広く知られていない学習済みモデルを利用した攻撃手法と対策を、筆者らの検証結果を交えながら解説する。
本ブログが、安全な機械学習プラットフォーム利用の一助になれば幸いである。

Transferable Clean-Label Poisoning Attacks on Deep Neural Nets

カテゴリ: trojan

概要

ブラックボックス設定でDNNベースの画像分類器にバックドアを設置する攻撃手法。
その名も「Convex Polytope Attack」。

摂動を加えた画像データ(以下、汚染データ)を学習データに注入し、攻撃対象となる画像分類器に学習させることで、特定の正常データ(以下、トリガー)を攻撃者が意図したクラスに分類させることができる。なお、汚染データは見た目に違和感がないため、ラベリングなどの学習データ作成工程で異常に気付くことは困難。また、汚染データを作成する際にDropoutを適用することで、様々なアーキテクチャ(ResNet18, ResNet50, DenseNet121など)の分類器を攻撃することができる。