自己適応する大規模言語モデル SEAL（Self-Adapting Language Models）

近年の大規模言語モデル（LLM）は、膨大なテキストコーパスによる事前学習で高い文章生成能力を獲得してきました。しかし、「新しいタスクへの適応」や「最新の知識の取り込み」といった観点では、依然として課題が残されています。

従来のLLMは一度学習が終わると「静的」な存在となり、新しい情報やタスクに自律的に適応することができませんでした。

この課題に対してMITの研究グループは、SEAL（Self-Adapting Language Models）という新しいフレームワークを提案しました。これは、LLM自身が「自分で学習データやチューニング手順を生成し、自分の重みを更新する」という全く新しい適応戦略です。

SEALの概要：AIが自分の訓練データを作り出す

SEALの革新性は「自己編集（self-edit）」というアプローチにあります。モデルは新しい入力に対して、以下のような自分自身への指示（self-edit）を自然言語で生成します。

この「自己編集」は、人間がノートをまとめる過程に例えることができます。単なるコピペではなく、自分なりに要点を整理したり、図式化したりすることで、より深い理解や定着が得られるのと同じです。

SEALでは、こうした自己編集によって作成されたデータを使い、モデル自身が微調整（finetuning）を行います。さらに、この編集方針自体を強化学習（Reinforcement Learning, RL）で最適化していきます。

SEALのコアアイデアは「自己編集ループ」です。

この繰り返しによって、モデルは「どんな自己編集が効果的か」を学び続け、より賢く自己適応できるようになります。

SEALの有効性は、主に以下の2つの課題で検証されました。

Wikipediaのような文章を元に「内容の含意（implications）」をモデル自身に生成させ、その内容でモデルを微調整します。

結果として、単なる原文での学習よりも、自己生成データによる学習の方が、知識質問応答の正答率が大幅に向上しました。例えば、従来手法では33.5%だったSQuADデータセットのスコアが、SEALでは47.0%に上昇しています。

また、OpenAI GPT-4.1による外部生成データをも上回る結果となりました。

SEALは抽象的な推論タスク（ARC-AGIベンチマーク）でも、どのようなデータ増強やハイパーパラメータ設定が最適かを自律的に選択できるようになります。

その結果、従来の「インコンテキスト学習」や「人間による最適設定」に迫るパフォーマンスを実現しました。

忘却（catastrophic forgetting）： 連続して自己編集・学習を繰り返すと、過去の知識が徐々に失われる傾向があります。今後は「過去知識の維持」と「新知識の取り込み」を両立する工夫が求められます。
計算コスト： 各自己編集ごとに微調整と評価が必要であるため、従来のRLよりもコストが高いのも課題です。