Transformerは、自然言語処理タスクにおいて高い精度を発揮するニューラルネットワークのアーキテクチャのひとつです。Transformerは、Encoder-Decoderのアーキテクチャを採用し、Attentionを中心とした設計になっています。
Transformerは、非常に長い入力シーケンスを扱うことができるため、自然言語処理タスクにおいて、長い文章や文章の集合を処理することができます。
TransformerのEncoderは、多数のself-attention層を持ち、それぞれの層は、入力シーケンス中の単語の関係性を計算し、それに基づいて、中間表現を生成します。Decoderは、Encoderが生成した中間表現を受け取り、それをもとに出力シーケンスを生成します。Decoderもself-attention層を持ち、またEncoderとのattentionも行います。
Transformerは、Attention mechanismを使うことで、入力シーケンス中の単語の関係性を取り入れることができるため、自然言語処理タスクにおいて高い精度を発揮し、機械翻訳や文章の生成などに用いられます。