データ拡張(data augmentation)とは、機械学習において、既存のデータを加工して新しいデータを生成することを指します。
データ拡張は、学習に用いるデータセットを拡大することで、汎化性能を向上させることができます。
例えば、画像認識タスクでは、同じ画像を回転させたり、反転させたり、一部をクロップしたりすることで、新しい画像を生成することができます。
これらの新しい画像を用いて学習を行うことで、モデルが画像内の物体の位置や向きに対してロバストになるようになります。
データ拡張は、学習データが少ない場合に有効ですが、過剰に行うことで、
学習データが自然でなくなることもあるため、適切な拡張方法を検討する必要があります。