敵対的な攻撃(Adversarial attacks)

敵対的な攻撃(Adversarial attacks)

敵対的な攻撃(Adversarial attacks)は、機械学習における攻撃の一つで、学習済みのモデルを悪用して、正しい結果を出力しないように改ざんすることを指します。これは、学習済みモデルに対して小さな入力の変更を加えることで、その結果を大きく変えることができるものです。

敵対的な攻撃は、画像認識や自然言語処理などの機械学習のタスクにおいて特に重要であり、セキュリティ上の問題を引き起こす可能性があります。

敵対的な攻撃の一例として、「対照的攻撃」があります。これは、学習済みモデルに対して小さな変更を加えることで、それを「違うもの」と認識させる攻撃です。これに対して対策としては「対照的対策」という手法があり、学習時に敵対的攻撃に対しての耐性を持たせることができます。

また「推論攻撃」もあり、学習済みのモデルに対してどのような入力を与えたらどのような出力が得られるかを推測することを目的にする攻撃です。

敵対的な攻撃は、学習済みモデルを用いるシステムにおいて重要な課題の一つであり、対策には頻繁に研究が進められています。