Self-Attentionは、Attentionの一種で、入力シーケンスの中で各元の位置が、他の元とどの程度相互作用を持っているかを計算する手法です。
Self-Attentionは、入力シーケンス中の各元に対して、それぞれの位置が他の元とどの程度相互作用を持っているかを表す重みを計算します。これにより、入力シーケンス中の各元が、どの元と相互作用を持っているかを知ることができ、それに基づいて、中間表現を生成することができます。
Self-Attentionは、Transformer アーキテクチャにおいて、EncoderやDecoderにおいて使用され、それにより、長い文章を処理することができるようになりました。また、Self-Attentionは、他のタスクにも応用され、画像認識や音声認識などにも使われるようになってきています。