概要

Deep learningは各分野で成果を出していて、計算リソースが必要になることが多い。そこで、クラウド上で学習するサービス(MLaaS)が出現し、既存のモデルを利用したり、転移学習などをさせることでコストを下げる方法が出てくるなど、機械学習のアウトソーシングが主流になりつつある。だが、学習時にバックドアをネットワークに仕込むことができ、バックドアを仕込まれたモデルは通常のテストケースでは何も問題がないものの、特定のトリガーを入力させることで誤識別させることができる。この攻撃手法をBadNetsと呼ぶ。

論文情報

公開日

2017-08-22

著者情報

Tianyu Gu, Brendan Dolan-Gavitt, Siddharth Garg.

New York University.

論文情報・リンク

arxiv pdf

手法

outsourced training attack

モデルの形とデータセットをクラウドに投げて、学習結果のパラメータを受け取る場合を考える。

BadNetsモデルの条件:

  • val accを低下させてはいけない(val dataは未知)
  • トリガーを入力したとき、正常に訓練したモデルとは異なる予測を出力する(標的型・非標的型の2パターンある)

transfer learning attack

ユーザが悪意を持って学習されたモデルをダウンロードして、転移学習する場合を考える。

BadNetsモデルの条件:

  • 新しいアプリケーションに対して設定されたユーザのval accが高くなければならない
  • トリガーを入力したとき、正常に訓練したモデルとは異なる予測を出力する

どちらにせよ、学習データにトリガーとなるデータを仕込むことによってバックドアを作成する。

結果

MNIST

以下のようなデータを混ぜた

結果、意図通り間違えさせられており、標的型のバックドアを仕込めていると言える。

悪意のあるデータは、全体の10%くらいでうまくいく。

Transfer learning

転移学習の場合は以下のようになる。(道路標識の識別)

以下のようにconv5のactivationを可視化させたら、backdoorの発火するポイントがわかる。

議論

DNNのバックドアを検出する技術を研究する必要がある。