TikTok開発元が放つ次世代マルチモーダルAI 「BAGEL」

TikTok開発元が放つ次世代マルチモーダルAI 「BAGEL」

2025年5月20日、ByteDance(TikTok開発元)が驚異的なAIモデル「BAGEL」をオープンソースとして公開しました。BAGELはUnified Model for Multimodal Understanding and Generation(マルチモーダル理解と生成のための統一モデル)として設計された、テキスト・画像・動画を包括的に処理できる次世代AIです。

BAGEL概要:

  • テキスト・画像・動画の理解と生成を一つのモデルで実現
  • 有効パラメータ数:7B(合計14B)
  • 大規模なインターリーブ(交互混合)マルチモーダルデータでトレーニング
  • 従来のオープンソースモデルを超える性能と高度な推論・編集能力
  • ライセンス:Apache 2.0(完全オープンソース)

BAGELは画像生成、画像編集、マルチモーダル理解のベンチマークで、Qwen2.5-VL、InternVL-2.5などの既存のトップ層オープンソースVLM(Visual Language Models)を凌駕し、Stable Diffusion 3のような専用生成モデルに匹敵する性能を示しています。

特筆すべきは、従来の画像編集モデルの範囲を超えた「ワールドモデリング」能力です。自由形式の視覚操作、複数視点の合成、複雑な空間操作など、高度な機能を単一モデルで実現しています。

革新的アーキテクチャと技術的特徴

BAGELのアーキテクチャ

BAGELのアーキテクチャ概要図(出典:ByteDance-Seed/Bagel)

Mixture-of-Transformer-Experts(MoT)構造

BAGELは、モデル容量を最大化するためにMixture-of-Transformer-Experts(MoT)アーキテクチャを採用しています。これは以下の要素から構成されています:

二重Transformerエキスパート

理解専用Transformerと生成専用Transformerの2つのエキスパートが同じ入力シーケンスを処理し、共通の注意コンテキストを共有。各専門家が特化しながら一貫した理解を保証します。

二重視覚エンコーダ

視覚入力は2つの事前学習済みエンコーダで処理されます:
– SigLIP-LベースのVision Transformer(高レベルセマンティクス抽出用)
– FLUX.1のVAEベースエンコーダ(ピクセルレベルの画像再構築用)

学習データとスケーリング戦略

BAGELのトレーニングは、単なる大規模なデータセットだけでなく、スマートな設計とスケーリング戦略によって支えられています:

  • インターリーブ・マルチモーダルデータ:別々の画像やテキストデータではなく、テキスト、画像トークン、ビデオフレームトークンが混在した交互のデータストリームで訓練
  • Next Group of Token予測:従来の次トークン予測モデルとは異なり、BAGELはトークンの全グループ(例:画像全体や文全体)を一度に予測
  • 段階的トレーニングパイプライン:大規模マルチモーダルデータでの事前学習 → 厳選された指示フォローデータセットでの継続訓練 → 特定タスク向け教師付き微調整
  • エマージェントプロパティ:学習規模の拡大に伴い、基本的理解・生成能力から複雑な編集能力、知的推論型編集能力へと段階的に能力が「出現」
BAGELのエマージェントプロパティ

BAGELのエマージェント(出現的)特性:トレーニングスケールと能力の関係(出典:ByteDance-Seed/Bagel)

主な機能と圧倒的性能

1. マルチモーダル理解能力

BAGELは、視覚的質問応答、キャプション生成、シーン分析、物体認識などのタスクで卓越した性能を示しています。MMBench、MMVet、MMEなどのベンチマークでトップランクの結果を達成しています。

モデル MME ↑ MMBench ↑ MMMU ↑ MM-Vet ↑ MathVista ↑
Janus-Pro-7B 79.2 41.0 50.0
Qwen2.5-VL-7B 2347 83.5 58.6 67.1 68.2
BAGEL 2388 85.0 55.3 67.2 73.1

2. テキストから画像生成

「未来的な木の枝に止まるロボットフクロウ」のようなプロンプトを与えると、BAGELは鮮明で現実的な画像を生成します。GenEvalでは、BAGELは0.88のスコアを獲得し、SD3-Medium(0.74)やJanus-Pro-7B(0.80)などのモデルを上回っています。

テキストから画像生成の主な特徴:

  • プロンプトへの高い忠実度
  • 一貫したスタイルと視覚的質感
  • 複数オブジェクトの空間関係理解
  • 複雑な条件付け能力
  • 自然な色彩と構図
モデル GenEval(総合)↑
FLUX-1-dev 0.82
SD3-Medium 0.74
Janus-Pro-7B 0.80
BAGEL 0.88

3. 画像編集と操作

BAGELが真に輝くのはここです。画像をアップロードして、「空を嵐の夜に変える」「犬にウィザードハットをかぶせる」「猫と犬を入れ替えて、犬を青くする」などの指示ができます。BAGELはこれらをすべて印象的な忠実度と一貫性で処理します。

BAGELの画像生成と編集例

BAGELの画像生成と編集例(出典:ByteDance-Seed/Bagel)

GEdit-Benchでは、BAGELは7.36のスコアを獲得し、オープンソースの競合製品をすべて上回っています。さらに重要なことに、BAGELはChain-of-Thought(思考連鎖)プロンプティングによるマルチステップ編集をサポートしています。編集計画をステップごとに指示すると、まさにそのとおりに実行されます。

4. ワールドモデリングと未来予測

BAGELの最も印象的な技術の一つは、未来のビデオフレームを予測したり、別の角度からシーンを生成したりする能力です。例えば、通りの写真を与えると、裏路地がどのように見えるかを推論できます。

また、「この画像で前に進むと、次に何が見えるか?」といったナビゲーションタスクもサポートしています。これらのタスクは、BAGELの3D空間と動きに関する内部理解を示唆しています。

まとめ:統合AIモデルの未来

BAGELは、AIの進化における論理的な次のステップを表しています。それは、すべてのデータタイプを理解して生成できる統一モデルです。スマートなアーキテクチャ、大規模なトレーニング、そして出現する能力により、人間のように見て、考え、創造するAIにより近づいています。

BAGELの重要点:

  • オープンソースの強み:完全に公開されており、Apache 2.0ライセンスの下で自由に使用、検査、微調整が可能
  • 統合能力:テキスト、画像、動画を単一のモデルで処理
  • 競争力のある性能:多くのベンチマークで専用モデルに匹敵または上回る結果
  • アクセシビリティ:オンラインデモやローカルインストールオプションで誰でも試用可能
  • コミュニティの成長:Discordコミュニティとオープンソース開発の取り組みにより、継続的な改善が期待される

TikTokで知られるByteDanceからリリースされたBAGELは、オープンソースコミュニティに大きなインパクトを与えています。GPT-4oやGeminiなどの商用モデルに匹敵する機能を持ちながら、完全に透明で自由に使えるという強みを持っています。AIの民主化とオープンイノベーションの観点から、BAGELの登場は大きな影響を与えることなることでしょう。

関連リンク