Meta は 2025 年 6 月、映像を通じて 物理世界を理解・予測し、行動計画まで可能にする世界モデル 「V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)」 を発表しました。本モデルはロボティクスや自動運転など実世界応用を見据えた画期的な研究成果です。
JEPA とは?
JEPA (Joint Embedding Predictive Architecture) は Yann LeCun 氏が提唱した学習枠組みで、ピクセル単位ではなく 「表現(埋め込み)空間」で予測 を行います。これにより、計算効率が高く意味的に整合した未来予測が可能になります。
V-JEPA 2 では映像全体を 非生成的 に処理し、わずかな動きや物理現象も的確に捉えます。

V-JEPA 2の進化:抽象予測×リアルタイム動作の両立
V-JEPA 2の大きな革新点の一つは、「抽象表現にもとづく予測」を維持しながら、ロボティクスなど現実環境でのリアルタイム動作を可能にした点です。
従来の手法では、抽象的な埋め込み表現は意味的には優れていても、「物理的な行動に即座に反映する」には不向きとされていました。では、なぜV-JEPA 2ではそれが可能になったのでしょうか?
ポイント①:予測対象の抽象化
従来モデルでは、次のフレームのすべてのピクセルを逐次生成する必要があり、膨大な計算コストが発生していました。
V-JEPA 2はこのボトルネックを解消し、「ピクセル」ではなく高次元の表現ベクトル(埋め込み)だけを予測する方式を採用。これにより、処理速度が一桁高速化し、即時の計画生成が可能になりました。
ポイント②:MPC(モデル予測制御)との統合
V-JEPA 2は、抽象的に予測された未来の状態を、MPC(Model Predictive Control)と連携して動作に変換します。
単なる物体の位置予測にとどまらず、「目標までの戦略的な経路全体」を推論・制御することができ、ロボットが現実環境で即座に応答・修正可能な仕組みを構築しています。
ポイント③:大規模・自己教師あり事前学習
V-JEPA 2は、100万時間を超える動画データから自己教師ありで学習することで、「抽象的な世界モデル」を構築しています。この事前学習により、少量のデータによるファインチューニングだけで、多様なロボット操作や新規タスクに迅速に対応可能となっています。
このように、V-JEPA 2は「高次の抽象予測 × 即応可能な実行制御」を両立させたことで、世界モデルの実用化を大きく前進させました。
学習プロセス:2 段階の大規模 × 省データ方式
① アクションフリー事前学習
- インターネット動画 約 100 万時間 + 画像 100 万枚 で自己教師あり学習。
- マスク化されたフレームの欠損を予測。
- ViT-g 相当(最大 10 億パラメータ)を採用し、解像度と視野を段階的に拡大する プログレッシブ学習 に対応。
② アクション条件付き学習(Fine-tune)
- 事前学習済みエンコーダを固定し、Droid データセット(62 時間)で映像 + アクションを学習。
- Transformer 予測器(約 3 億パラメータ)が行動に応じた未来状態を表現空間で予測。
- 生成されたモデルを V-JEPA 2-AC と呼称。
高精度な 3 能力セット
能力カテゴリ | 主な成果 |
---|---|
理解 (Understanding) |
Something-Something v2 で Top-1 = 77.3 %(微細動作を高精度に分類) Jester、ImageNet など 6 タスク平均 88.2 % |
予測 (Prediction) |
Epic-Kitchens-100 で Recall @ 5 = 39.7 %(従来比 +44 %) |
計画 (Planning) |
LLaMA 3.1 8B と連携し動画 QA で SOTA:PerceptionTest 84.0 %、TempCompass 76.9 % ほか V-JEPA 2-AC によるゼロショット Franka アーム操作:成功率 65–80 %(カップ操作 80 %、箱操作 65 %) 16 秒で推論完了 ― Cosmos 系モデル(4 分)より 数十倍高速 |
新規ベンチマーク
- IntPhys 2: 物理法則遵守を判定(因果/動きの整合性)
- MVPBench: 動画多肢選択 QA
- CausalVQA: 反事実推論など因果理解を評価
ロボティクスへの応用と特徴
ゼロショット制御 の実証により、未知の環境や物体でも MPC を用いて画像目標から動作を計画・実行できます。環境非依存型の高い汎化能力が確認されました。
従来手法との比較
従来(例:Cosmos) :ピクセル生成に注力するためモデルが重く、リアルタイム運用が困難。
V-JEPA 2 :表現空間での予測により軽量かつ高効率。ロボット制御で即時応答が可能。
今後の展望
MetaがV-JEPA 2の今後の進化として強調しているのは、単なる「階層化」「マルチモーダル化」に留まりません。以下のような多面的な発展が示されています。
① 階層的世界モデルの拡張
現在は、数秒〜十数秒レベルの短期計画に焦点を当てていますが、今後は「短期〜長期」「細部〜全体」といった複数階層の抽象化を組み合わせ、より長期的で戦略的な行動計画が可能になることを目指しています。
- 例:一日を通したロボットの家事スケジューリング
- 例:数十分にわたる自動運転ルートの計画と適応
② マルチモーダルJEPAの開発
視覚(カメラ)だけでなく、音声(マイク)、触覚(センサー)、言語(テキスト指示)など複数モダリティを統合処理することで、人間に近い認識・判断・応答能力を実現します。
マルチモーダル推論により
- 物体の硬さや感触の理解
- 音の変化による状況把握
- 言葉の指示に基づく柔軟な応答
これにより、家庭用・産業用ロボットの応用可能性が大きく広がります。
③ 自己進化型の学習パラダイム
未知の知識やタスクを自動で発見し、自己学習・適応していく新しい学習パラダイムを志向しています。これにより、未知環境でも高い柔軟性と汎用性を発揮できるモデルを目指します。
将来的には、AGI(汎用人工知能)への基盤技術となる可能性があります。
④ 産業スケールでの実装・最適化
実際の工場や物流、自動車などの現場において、「大規模分散処理」や「現場からのフィードバック学習」を取り入れることで、商用利用への移行をスムーズに進めています。
V-JEPAの研究成果が現実のプロダクトとして社会に広がっていく過程にも、今後注目が集まります。
産業応用の可能性
- 家庭用ロボット:掃除・料理など日常支援
- 製造現場:柔軟な自動化ライン
- 医療支援・リハビリ機器
- 自動運転における高度判断支援
まとめ
V-JEPA 2 は 「理解」「予測」「計画」 を高いレベルで統合し、実環境ロボティクスでの有効性を示した次世代世界モデルです。従来の「ピクセルを積み重ねるだけ」のAIとは根本的に異なり、V-JEPA 2は“世界の意味”そのものを理解し計画できる、新たな知能の時代を切り拓く存在です。
今後はより長期的・複雑な物理現象も捉え、さまざまな産業や私たちの生活を一変させる「本物の世界モデルAI」として、ますます期待が高まっています。
引用・参考リンク
- 1.Meta AI Blog ― V-JEPA 2 World-Model Benchmarks
- 2.V-JEPA 2 論文 ― arXiv: 2506.09985
- 3.GitHub ― facebookresearch/vjepa2
- 4.Hugging Face ― Physical Reasoning Leaderboard
- 5.Epic-Kitchens-100 Dataset ― epic-kitchens.github.io
- 6.Something-Something v2 Dataset ― 20BN-something-something v2