画像・言語・音声のすべてに対応する、初の高性能な自己教師あり学習であるdata2vecを紹介!

画像・言語・音声のすべてに対応する、初の高性能な自己教師あり学習であるdata2vecを紹介!

 Meta社から発表された、画像・言語・音声に対応する初の高性能な自己教師付きアルゴリズムであるdata2vecを紹介します。

概要

 データをアノテーションする労力を回避するために、教師あり学習のようにコンピュータがラベル付けされた画像、テキスト、音声、その他のデータソースを通じて明示的に教えるのではなく、環境を直接観察することによって学習する自己教師あり学習は、AIの多くの重要な最近の進歩を後押ししています。しかしながら、人は情報の取得方法(たとえば、視覚または音声のどちらを使用するか)に関係なく、同様の方法で学習しているように見えますが、現在、教師あり学習アルゴリズムが画像、音声、テキストや他のモダリティから学習する方法とは大きな違いがあります。(モダリティ (modality)とは、一般的には話している内容に対する話し手の判断や感じ方を表す言語表現のことです。)

 この不一致は、自己教師あり学習の進歩をより広く適用する上での重大な障壁となっています。たとえば、画像を理解するために設計されたアルゴリズムは、テキストなどの別のモダリティに直接適用できないため、複数のモダリティを同じ速度で進めることが困難になっています。

 今回、Meta AIより、画像・言語・音声という複数のモダリティに対応する初の高性能な自己教師付きアルゴリズムであるdata2vecが発表されました。これはdata2vecを画像・言語・音声に別々に適用してコンピュータビジョンと音声のための以前の単一目的のアルゴリズムを上回るパーフォーマンスを示しました。また、新しい研究により一つのモダリティだけでなく複数のモダリティを改善する、全体的な自己教師あり学習の新しいパラダイムを表しています。また、対照学習や入力例の再構築に依存しないdata2vecは、AIの進歩の加速に役立つだけでなく、周囲の世界のさまざまな側面をシームレスに学習する機械の構築に我々を近づけてくれる可能性があります。これにより、より適応性の高いAIを開発することが可能となり、現在のシステムで出来ることを超えたタスクを実行できるようになると考えられます。

data2vecのしくみ

 AIの多くは、ラベル付けされたデータのみで機能する教師あり学習に基づいています。しかし、機械にやらせたいことのすべてについてラベル付きデータを収集することは、不可能です。例えば、英語の音声や言語については、大規模なラベル付きデータセットの作成に多くの研究者が取り組んでいますが、地球上で話されている文字通り何千もの言語についてこれを行うことは現実的ではありませんし、ほぼ不可能です。

 自己教師あり学習により、コンピュータは画像、音声、言語の構造を理解し、世界を観察すし、学習することができます。画像の分類や話し言葉の理解について、明示的な学習を必要としない機械があれば、スケーラビリティが格段に向上する事と思われます。

 今日の自己教師あり学習の研究は、ほとんどの場合、ある特定のモダリティに焦点を当てています。そのため、あるモダリティを研究している研究者は、他のモダリティを研究している研究者と異なるアプローチを取ることになります。また、アルゴリズムは、画像にはピクセルや視覚的なトークン、テキストには単語、音声には学習された音など、それぞれのモダリティに対して異なる単位を使っています。ピクセルの集まりと音声の波形や文章の一節は非常に異なるため、アルゴリズム設計は特定のモダリティに縛られてきました。これは、アルゴリズムが各モダリティで異なる方法で機能していることを意味しています。

 Data2vecは、モダリティに関係なく、入力データの独自の表現を予測するようにモデルをトレーニングすることにより、これを簡素化します。視覚的なトークン、単語、または音を予測する代わりに、これらの表現(ニューラルネットワークのレイヤー)に焦点を当てることにより、単一のアルゴリズムで完全に異なるタイプの入力を処理できます。これにより、学習タスクにおけるモダリティ固有のターゲットへの依存がなくなります。

 Data2vecでは先ず、教師ネットワークを使用して、最初に画像、言語、または音声からターゲット表現を計算します。次に、入力の一部をマスクし、生徒のネットワークでプロセスを繰り返します。これにより、教師の潜在的な表現が予測されます。学生モデルは、一部の情報のみを表示している場合でも、完全な入力データの表現を予測する必要があります。

世界を観察することから学ぶコンピュータに向けて

 トレーニングデータに表示されている動物を認識するだけでなく、新しい生き物がどのように見えるかを伝えると、それを認識できる様に適応させた機械を考えた時、Data2vecは自己教師あり学習アルゴリズムがさまざまなモダリティでうまく機能し、多くの場合既存の最良のアルゴリズムよりも優れていることを示している様にみえます。これにより、より一般的な教師あり学習への道が開かれ、AIがビデオ、記事、オーディオレコーディングを使用して、「世界を観察することから学ぶコンピュータ」の実現に近づく事が期待できると思われます。

参考AI Blog URL:
https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text,January 20, 2022