詳細解説

AIに対する攻撃手法と防御手法を解説します。

AIセキュリティ・マトリックス

開発工程 攻撃分類 攻撃手法 防御手法
学習データの収集/作成
(Data Preparation)
データ汚染
モデルの学習/作成
(Model Fitting)
モデル汚染
  • 信頼できる事前学習モデルの利用
  • 信頼できるAI開発会社の利用
  • サンドボックス環境の利用
  • 必要最低限の権限によるAIの稼働
  • 最新バージョンの機械学習フレームワークの利用
モデルの設置
(Deployment)
敵対的サンプル
データ窃取
  • 過学習の抑制
  • 差分プライバシー
  • ラベルのみ応答
  • 信頼スコアのマスキング
  • 勾配情報のマスキング
  • 信頼スコアのマスキング
  • モデルのアクセス制御
モデル窃取
  • モデルのアクセス制御
  • 学習データのアクセス制御
  • 窃取モデルの検知

防御手法

トリガーの検知 (STRIP: STRong Intentional Perturbation)

データ汚染の防御手法。複数の画像を重ねるなどして意図的に摂動を加えたデータをAIに入力し、この入力データが分類されるクラスのバラつきを観測することで入力データがトリガーか否か検知します。

詳細はこちら

敵対的学習 (Adversarial Training)

敵対的サンプルの防御手法。AIの学習時に、通常の学習データに敵対的サンプルを加え、敵対的サンプルの特徴を学習することで、敵対的サンプルによる誤分類を抑制します。

詳細はこちら

特徴量の絞り込み (Feature Squeezing)

敵対的サンプルの防御手法。AIへの入力データのカラービット深度を減らしたり、画像の平滑化を行うことで、誤分類の原因となる摂動の影響を抑制します。

詳細はこちら

汚染データの検知 (Activation Clustering)

データ汚染の防御手法。クラスタリング技術を使用することで、AIへのバックドア設置を目的として学習データに注入された汚染データを検知します。

詳細はこちら