TikTok開発元が放つ次世代マルチモーダルAI 「BAGEL」

2025年5月20日、ByteDance（TikTok開発元）が驚異的なAIモデル「BAGEL」をオープンソースとして公開しました。BAGELはUnified Model for Multimodal Understanding and Generation（マルチモーダル理解と生成のための統一モデル）として設計された、テキスト・画像・動画を包括的に処理できる次世代AIです。

BAGEL概要：

テキスト・画像・動画の理解と生成を一つのモデルで実現
有効パラメータ数：7B（合計14B）
大規模なインターリーブ（交互混合）マルチモーダルデータでトレーニング
従来のオープンソースモデルを超える性能と高度な推論・編集能力
ライセンス：Apache 2.0（完全オープンソース）

BAGELは画像生成、画像編集、マルチモーダル理解のベンチマークで、Qwen2.5-VL、InternVL-2.5などの既存のトップ層オープンソースVLM（Visual Language Models）を凌駕し、Stable Diffusion 3のような専用生成モデルに匹敵する性能を示しています。

特筆すべきは、従来の画像編集モデルの範囲を超えた「ワールドモデリング」能力です。自由形式の視覚操作、複数視点の合成、複雑な空間操作など、高度な機能を単一モデルで実現しています。

1. 革新的アーキテクチャと技術的特徴
- 1.1. Mixture-of-Transformer-Experts（MoT）構造
  - 1.1.1. 二重Transformerエキスパート
  - 1.1.2. 二重視覚エンコーダ
- 1.2. 学習データとスケーリング戦略
2. 主な機能と圧倒的性能
3. まとめ：統合AIモデルの未来
4. 関連リンク

革新的アーキテクチャと技術的特徴

BAGELのアーキテクチャ概要図（出典：ByteDance-Seed/Bagel）

Mixture-of-Transformer-Experts（MoT）構造

BAGELは、モデル容量を最大化するためにMixture-of-Transformer-Experts（MoT）アーキテクチャを採用しています。これは以下の要素から構成されています：

二重Transformerエキスパート

理解専用Transformerと生成専用Transformerの2つのエキスパートが同じ入力シーケンスを処理し、共通の注意コンテキストを共有。各専門家が特化しながら一貫した理解を保証します。

二重視覚エンコーダ

視覚入力は2つの事前学習済みエンコーダで処理されます：
– SigLIP-LベースのVision Transformer（高レベルセマンティクス抽出用）
– FLUX.1のVAEベースエンコーダ（ピクセルレベルの画像再構築用）

学習データとスケーリング戦略

BAGELのトレーニングは、単なる大規模なデータセットだけでなく、スマートな設計とスケーリング戦略によって支えられています：

インターリーブ・マルチモーダルデータ：別々の画像やテキストデータではなく、テキスト、画像トークン、ビデオフレームトークンが混在した交互のデータストリームで訓練
Next Group of Token予測：従来の次トークン予測モデルとは異なり、BAGELはトークンの全グループ（例：画像全体や文全体）を一度に予測
段階的トレーニングパイプライン：大規模マルチモーダルデータでの事前学習 → 厳選された指示フォローデータセットでの継続訓練 → 特定タスク向け教師付き微調整
エマージェントプロパティ：学習規模の拡大に伴い、基本的理解・生成能力から複雑な編集能力、知的推論型編集能力へと段階的に能力が「出現」

BAGELのエマージェント（出現的）特性：トレーニングスケールと能力の関係（出典：ByteDance-Seed/Bagel）

主な機能と圧倒的性能

1. マルチモーダル理解能力

BAGELは、視覚的質問応答、キャプション生成、シーン分析、物体認識などのタスクで卓越した性能を示しています。MMBench、MMVet、MMEなどのベンチマークでトップランクの結果を達成しています。

モデル	MME ↑	MMBench ↑	MMMU ↑	MM-Vet ↑	MathVista ↑
Janus-Pro-7B	–	79.2	41.0	50.0	–
Qwen2.5-VL-7B	2347	83.5	58.6	67.1	68.2
BAGEL	2388	85.0	55.3	67.2	73.1

2. テキストから画像生成

「未来的な木の枝に止まるロボットフクロウ」のようなプロンプトを与えると、BAGELは鮮明で現実的な画像を生成します。GenEvalでは、BAGELは0.88のスコアを獲得し、SD3-Medium（0.74）やJanus-Pro-7B（0.80）などのモデルを上回っています。

テキストから画像生成の主な特徴：

プロンプトへの高い忠実度
一貫したスタイルと視覚的質感
複数オブジェクトの空間関係理解
複雑な条件付け能力
自然な色彩と構図

モデル	GenEval（総合）↑
FLUX-1-dev	0.82
SD3-Medium	0.74
Janus-Pro-7B	0.80
BAGEL	0.88

3. 画像編集と操作

BAGELが真に輝くのはここです。画像をアップロードして、「空を嵐の夜に変える」「犬にウィザードハットをかぶせる」「猫と犬を入れ替えて、犬を青くする」などの指示ができます。BAGELはこれらをすべて印象的な忠実度と一貫性で処理します。

BAGELの画像生成と編集例（出典：ByteDance-Seed/Bagel）

GEdit-Benchでは、BAGELは7.36のスコアを獲得し、オープンソースの競合製品をすべて上回っています。さらに重要なことに、BAGELはChain-of-Thought（思考連鎖）プロンプティングによるマルチステップ編集をサポートしています。編集計画をステップごとに指示すると、まさにそのとおりに実行されます。

4. ワールドモデリングと未来予測

BAGELの最も印象的な技術の一つは、未来のビデオフレームを予測したり、別の角度からシーンを生成したりする能力です。例えば、通りの写真を与えると、裏路地がどのように見えるかを推論できます。

また、「この画像で前に進むと、次に何が見えるか？」といったナビゲーションタスクもサポートしています。これらのタスクは、BAGELの3D空間と動きに関する内部理解を示唆しています。

まとめ：統合AIモデルの未来

BAGELは、AIの進化における論理的な次のステップを表しています。それは、すべてのデータタイプを理解して生成できる統一モデルです。スマートなアーキテクチャ、大規模なトレーニング、そして出現する能力により、人間のように見て、考え、創造するAIにより近づいています。

BAGELの重要点：

オープンソースの強み：完全に公開されており、Apache 2.0ライセンスの下で自由に使用、検査、微調整が可能
統合能力：テキスト、画像、動画を単一のモデルで処理
競争力のある性能：多くのベンチマークで専用モデルに匹敵または上回る結果
アクセシビリティ：オンラインデモやローカルインストールオプションで誰でも試用可能
コミュニティの成長：Discordコミュニティとオープンソース開発の取り組みにより、継続的な改善が期待される

TikTokで知られるByteDanceからリリースされたBAGELは、オープンソースコミュニティに大きなインパクトを与えています。GPT-4oやGeminiなどの商用モデルに匹敵する機能を持ちながら、完全に透明で自由に使えるという強みを持っています。AIの民主化とオープンイノベーションの観点から、BAGELの登場は大きな影響を与えることなることでしょう。