2025年5月20日、ByteDance(TikTok開発元)が驚異的なAIモデル「BAGEL」をオープンソースとして公開しました。BAGELはUnified Model for Multimodal Understanding and Generation(マルチモーダル理解と生成のための統一モデル)として設計された、テキスト・画像・動画を包括的に処理できる次世代AIです。
BAGEL概要:
- テキスト・画像・動画の理解と生成を一つのモデルで実現
- 有効パラメータ数:7B(合計14B)
- 大規模なインターリーブ(交互混合)マルチモーダルデータでトレーニング
- 従来のオープンソースモデルを超える性能と高度な推論・編集能力
- ライセンス:Apache 2.0(完全オープンソース)
BAGELは画像生成、画像編集、マルチモーダル理解のベンチマークで、Qwen2.5-VL、InternVL-2.5などの既存のトップ層オープンソースVLM(Visual Language Models)を凌駕し、Stable Diffusion 3のような専用生成モデルに匹敵する性能を示しています。
特筆すべきは、従来の画像編集モデルの範囲を超えた「ワールドモデリング」能力です。自由形式の視覚操作、複数視点の合成、複雑な空間操作など、高度な機能を単一モデルで実現しています。
革新的アーキテクチャと技術的特徴

BAGELのアーキテクチャ概要図(出典:ByteDance-Seed/Bagel)
Mixture-of-Transformer-Experts(MoT)構造
BAGELは、モデル容量を最大化するためにMixture-of-Transformer-Experts(MoT)アーキテクチャを採用しています。これは以下の要素から構成されています:
二重Transformerエキスパート
理解専用Transformerと生成専用Transformerの2つのエキスパートが同じ入力シーケンスを処理し、共通の注意コンテキストを共有。各専門家が特化しながら一貫した理解を保証します。
二重視覚エンコーダ
視覚入力は2つの事前学習済みエンコーダで処理されます:
– SigLIP-LベースのVision Transformer(高レベルセマンティクス抽出用)
– FLUX.1のVAEベースエンコーダ(ピクセルレベルの画像再構築用)
学習データとスケーリング戦略
BAGELのトレーニングは、単なる大規模なデータセットだけでなく、スマートな設計とスケーリング戦略によって支えられています:
- インターリーブ・マルチモーダルデータ:別々の画像やテキストデータではなく、テキスト、画像トークン、ビデオフレームトークンが混在した交互のデータストリームで訓練
- Next Group of Token予測:従来の次トークン予測モデルとは異なり、BAGELはトークンの全グループ(例:画像全体や文全体)を一度に予測
- 段階的トレーニングパイプライン:大規模マルチモーダルデータでの事前学習 → 厳選された指示フォローデータセットでの継続訓練 → 特定タスク向け教師付き微調整
- エマージェントプロパティ:学習規模の拡大に伴い、基本的理解・生成能力から複雑な編集能力、知的推論型編集能力へと段階的に能力が「出現」

BAGELのエマージェント(出現的)特性:トレーニングスケールと能力の関係(出典:ByteDance-Seed/Bagel)
主な機能と圧倒的性能
1. マルチモーダル理解能力
BAGELは、視覚的質問応答、キャプション生成、シーン分析、物体認識などのタスクで卓越した性能を示しています。MMBench、MMVet、MMEなどのベンチマークでトップランクの結果を達成しています。
モデル | MME ↑ | MMBench ↑ | MMMU ↑ | MM-Vet ↑ | MathVista ↑ |
---|---|---|---|---|---|
Janus-Pro-7B | – | 79.2 | 41.0 | 50.0 | – |
Qwen2.5-VL-7B | 2347 | 83.5 | 58.6 | 67.1 | 68.2 |
BAGEL | 2388 | 85.0 | 55.3 | 67.2 | 73.1 |
2. テキストから画像生成
「未来的な木の枝に止まるロボットフクロウ」のようなプロンプトを与えると、BAGELは鮮明で現実的な画像を生成します。GenEvalでは、BAGELは0.88のスコアを獲得し、SD3-Medium(0.74)やJanus-Pro-7B(0.80)などのモデルを上回っています。
テキストから画像生成の主な特徴:
- プロンプトへの高い忠実度
- 一貫したスタイルと視覚的質感
- 複数オブジェクトの空間関係理解
- 複雑な条件付け能力
- 自然な色彩と構図
モデル | GenEval(総合)↑ |
---|---|
FLUX-1-dev | 0.82 |
SD3-Medium | 0.74 |
Janus-Pro-7B | 0.80 |
BAGEL | 0.88 |
3. 画像編集と操作
BAGELが真に輝くのはここです。画像をアップロードして、「空を嵐の夜に変える」「犬にウィザードハットをかぶせる」「猫と犬を入れ替えて、犬を青くする」などの指示ができます。BAGELはこれらをすべて印象的な忠実度と一貫性で処理します。

BAGELの画像生成と編集例(出典:ByteDance-Seed/Bagel)
GEdit-Benchでは、BAGELは7.36のスコアを獲得し、オープンソースの競合製品をすべて上回っています。さらに重要なことに、BAGELはChain-of-Thought(思考連鎖)プロンプティングによるマルチステップ編集をサポートしています。編集計画をステップごとに指示すると、まさにそのとおりに実行されます。
4. ワールドモデリングと未来予測
BAGELの最も印象的な技術の一つは、未来のビデオフレームを予測したり、別の角度からシーンを生成したりする能力です。例えば、通りの写真を与えると、裏路地がどのように見えるかを推論できます。
また、「この画像で前に進むと、次に何が見えるか?」といったナビゲーションタスクもサポートしています。これらのタスクは、BAGELの3D空間と動きに関する内部理解を示唆しています。
まとめ:統合AIモデルの未来
BAGELは、AIの進化における論理的な次のステップを表しています。それは、すべてのデータタイプを理解して生成できる統一モデルです。スマートなアーキテクチャ、大規模なトレーニング、そして出現する能力により、人間のように見て、考え、創造するAIにより近づいています。
BAGELの重要点:
- オープンソースの強み:完全に公開されており、Apache 2.0ライセンスの下で自由に使用、検査、微調整が可能
- 統合能力:テキスト、画像、動画を単一のモデルで処理
- 競争力のある性能:多くのベンチマークで専用モデルに匹敵または上回る結果
- アクセシビリティ:オンラインデモやローカルインストールオプションで誰でも試用可能
- コミュニティの成長:Discordコミュニティとオープンソース開発の取り組みにより、継続的な改善が期待される
TikTokで知られるByteDanceからリリースされたBAGELは、オープンソースコミュニティに大きなインパクトを与えています。GPT-4oやGeminiなどの商用モデルに匹敵する機能を持ちながら、完全に透明で自由に使えるという強みを持っています。AIの民主化とオープンイノベーションの観点から、BAGELの登場は大きな影響を与えることなることでしょう。