Metaから発表された自己教師あり学習で100億のパラメータを持つ巨大ビジョンモデル「SEER 10B」を紹介していきます。
多様でより公平なデータセットを使い学習している点も特徴です。
1.問題・背景
従来のコンピュータビジョン学習では、慎重なデータキュレーションやラベル付けが必要でした。昨年春に発表されたSElf-SupERvized(SEER)は、Meta AI Researchの画期的な自己教師ありコンピュータビジョンモデルで、インターネット上の任意のランダムな画像の集合から直接学習して、画像埋め込みを出力することができます。SEERは、より強力になっただけでなく、より公平で堅牢なコンピュータビジョンモデルを生成し、人間が観察した異なる物体間の関係を考慮して世界について学習するのと同様に、画像から顕著な情報を発見することができるようになりました。SEERは、画期的なコンピュータビジョンシステムの構築を支援し、誰にでもうまく機能するAIの構築に向けて前進することができます。また、このモデルを一般に公開し、その仕組みに関する新しい技術的な詳細を共有します。SEERは今のところ研究用モデルですが、Meta AIが世界中の何十億もの人々に使われる製品のために、より優れたコンピュータービジョンシステムを構築するのに役立つと考えられています。
2.新規性
SEERは、最先端のシステムを凌駕し、自己教師あり学習が実世界のコンピュータビジョンタスクで卓越した能力を発揮することを実証しています。今回、SEERは10億から100億の高密度パラメータに拡張され、この種のコンピュータビジョンモデルとしては最大となりました。
このようにサイズが大きくなったことで、SEERは世界中の何兆枚ものランダムで未調整の画像を含む現実の大規模データセットに存在する、より質の高い視覚的特徴や顕著な情報を抽出することができるようになりました。このため、これまで教師なしモデルが苦手としていたタスクでも、SEERは優れたパフォーマンスを発揮することができます。
10Bのパラメータを持つSEERは、Meta AI Researchが最近提案した重要な公正ベンチマークにおいて、他のモデルより優れた性能を発揮します。従来のコンピュータビジョンシステムは、主に米国やヨーロッパの裕福な国々で撮影された画像を用いて訓練されているため、社会経済的な特徴が異なる他の場所の画像に対してはうまく機能しないことがよくあります。しかし、SEERは、米国や欧州以外の地域、幅広い所得水準の地域など、世界中の画像に対して良好な結果を得ることができます。さらに、10B SEERモデルは、性別、肌の色、年齢などの異なるグループ間で、公平性ベンチマークのパフォーマンスを劇的に向上させました。このモデルは、公平性ベンチマークでの性能向上以外にも、世界中の画像を十分に理解し、これまでにない精度でローカライズを行うことができます。
より良い性能とより公平な予測
SEERの性能は、公平性、頑健性、きめ細かな認識、医療画像、衛星画像、光学式文字認識(OCR)などの様々な画像分類データセットを含む50以上のベンチマークで研究・検証されたものです。100億パラメータのSEERモデルは、10億パラメータの前モデルを常に凌駕し、より優れた視覚的特徴を生成しました。また、インターネット上の画像をランダムに収集し、データのキュレーションを行わずに学習したにもかかわらず、10BモデルはImageNetで学習した最新の教師ありモデルや自己教師ありモデルを70%のベンチマークで上回り、残りのベンチマークでは同等の性能を達成しました。
自己管理を用いたAI研究の推進
世の中には実に多くの豊かさと多様性がありますが、ラベル付けされたデータセットに含まれるのはごく一部でしかありません。オリジナルのSEERモデルは、自己教師あり学習がランダムで注釈のない画像を活用し、最先端の性能を発揮できることを示しました。そして今、100億のパラメータに拡張することで、SEERはより堅牢で、より私的で、より公平なものとなりました。
3.まとめ
SEERと自己教師あり学習を他の分野にも応用していくことが期待されています。最終的には、画像、テキスト、音声、触覚などのモダリティを横断して、世界を総合的に理解するAIシステムを作ることが理想です。このようなインテリジェントなマシンがメタバースを解き放ち、人々が仕事や日常生活でタスクを遂行するのを助けてくれると考えられています。