DALLE-2の内部に独自の言語体系がある可能性を指摘した論文を解説！

はじめに
　米テキサス大学オースティン校の研究チームが、画像生成モデルであるDALLE-2のなかで独自の言語体系がある可能性を指摘し、その可能性や危険性について提起しました。

●論文
Discovering the Hidden Vocabulary of DALLE-2
https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

1. 概要
2. 詳細

概要

　米テキサス大学オースティン校の研究チームが、画像生成モデルであるDALLE-2のなかで独自の言語体系がある可能性を指摘しています。
　例えば、「Apoploe vesrreaitais」が鳥を意味し、「Contarra ccetnxniams luryca tanniounons」が虫などを意味していると考えられます。
　これらの単語は、英語以外の言語の単語である可能性やスペルミスではないとして、現在の調査のなかでは認識されています。一方で、そのため由来などがわかっておらず、どうしてこのような単語を保有することになったのかについて研究が必要であると指摘されています。

ポイント
・生成モデルの内部にモデルにだけ通用するような独自の言語体系がある可能性が示された。
・独自の言語体系を利用することで、解釈可能性が広がる一方で、想定していないシステムの不具合が発生したり、モデルを悪用される危険性を指摘。
・まだわかっていないことが多く、今後基礎的な研究が必要であることが提案された。

詳細

背景・研究結果

　DALLE や DALLE-2 は与えられた描写テキストに適する画像を生成する深層生成モデルです。これらのモデルは「Classifier-Free Diffusion Guidance ※」を利用することで、高い品質の画像を生成することができます。モデルに対する条件付けは、CLIP を利用してエンベディングされたテキスト（プロンプト）が利用されています。
　DALLE-2 の良く知られている限界として、与えるテキストによって生成される画像の質が変化するという問題があります。例えば、“An image of the word airplane” というプロンプトを与えると、ぎこちないテキストを含んだ画像を描写することで知られています。
　この生成されたテキストはランダムではなく、モデルが内部で開発したように見える隠された語彙を明らかにしていることがわかります。たとえば、このぎこちないテキストを入力すると、モデルは飛行機を頻繁に作成します。

　この隠された語彙は、自然なイメージを生成するぎこちないプロンプトとして利用することができます。たとえば、”Apoploe vesrreaitais” は鳥を意味し、”Contarra ccetnxniams luryca tanniounons” は、虫や害虫を意味する単語として利用できます。

※Classifier-Free Diffusion Guidance
　「Classifier Guidance 」は、生成モデルでの「低温サンプリング」または「切り捨て」と同じ精神で、学習後の条件付き拡散モデルで「モードカバレッジ（どの程度分野に対応しているか）」と「サンプル忠実度（もとの画像にどれくらい似ているか）」をトレードオフするために最近導入された方法です。
　この方法では、拡散モデルのスコア推定と画像分類器の勾配を組み合わせるため、拡散モデルとは別に画像分類器を学習させる必要があります。このような分類器がなくても、純粋な生成モデルによってガイダンスを実行できることを示したのが、「Classifier-Free Diffusion Guidance 」です。
　「Classifier-Free Diffusion Guidance 」では、条件付き拡散モデルと無条件拡散モデルを共同で学習し、結果の条件付きスコアと無条件スコアを組み合わせて、分類器ガイダンスを使用して得られるものと同様のサンプル品質と多様性の間のトレードオフを達成できることが知られています。

独自語彙の探索

　研究チームは、OpenAI が提供している API を通して、モデルにクエリアクセスすることで、モデルが内部的にもつ語彙を探索しました。

探索した単語
• “A book that has the word vegetables written on it.”
• “Two people talking about vegetables, with subtitles.”
• “The word vegetables written in 10 languages.”

以上の文章をうちこんだとき、モデルは文章が書かれた画像を生成します。書かれた文章は、人間にはランダムな文章に見えますが、研究チームは、この生成されたテキストが、一般に考えられたほどランダムではないということを見つけました。

　多くの場合、表示しようとしている単語と強く相関しています。たとえば、DALLE-2に「野菜について話している2人の農家、字幕付き」というテキストを表示すると、図2（a）に示す画像が表示されます。画像に表示されているテキストを解析し、図2（b）、（c）に示すようにモデルにプロンプトを表示します。“Vicootes” は野菜を意味し、”Apoploevesrreaitais” は鳥を意味するようです。
　この単純な方法で常に利用可能な単語が確認できるわけではないようですが、生成されたテキストのうちいくつかは、モデルに対して利用できる単語である可能性が高いということです。

発見された語彙に対する予備研究

構成

発見された語彙を与えることで、想定した画像を生成することができるかを実験しました。

発見された単語
「 Apoploe vesrreaitais」：鳥
「Contarra ccetnxniams luryca tanniounons」：虫

試した文章
“Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons”

　何枚かは想定した画像を生成することができましたが、すべてで可能というわけではないようです。

スタイル変換

　
DALLE-2では、スタイル変換が可能です。（例えば、写実風のイラストやアニメーション風のイラストなど）今回与えたプロンプトでは、鳥だけではなく、飛んでいる昆虫につながることがあるようです。

キャプションおよび生成された画像とのテキストの一貫性

　たとえば、「2頭のクジラが字幕付きで食べ物について話している」というプロンプトで生成された画像では「Wa ch zod ahaakes rea」というテキストが含まれた画像を生成します。この単語を利用して画像を生成すると、関係性があると考えられるような画像が生成されることが確認されました。

セキュリティと解釈可能性の課題

　ぎこちない単語が、異なる言語の通常の単語もしくはスペルミスなどである可能性は考えられますが、通常の検索ではいまのところそのような例は見つかっていないようです。そのため、これらの単語の起源は依然として混乱しており、一部の単語は予備実験で他の単語ほど一貫していないことが示されています。（単語を入力しても想像した画像を生成しない）
　
　また DALLE-2 とは異なる生成モデルである Imagen が、CLIPではなく言語モデルでトレーニングされていることを考えると、同様のモデル特有の隠された語彙を持っているかどうかは注目に値します。今回の研究チームのプロンプトは、CLIPのテキストエンコーダーの敵対的な例であると推測されています。つまり、”Apoploevesrreaitais” のベクトル表現は鳥の表現に近いものです。 CLIPに対する敵対的攻撃の他の方法（ホワイトボックスなど）を使用して、DALLE2でターゲット画像を生成するぎこちないテキストプロンプトが生成されるのは自然なこととも言えます。

　研究チームは、解釈のうえでの中心的な問題の1つは、この方法の「一貫性」にあると指摘しています。たとえば、予備調査によると、”Contarra ccetnxniams luryca tanniounons” のようなプロンプトは、バグや害虫（生成された画像の約半分）を生成することもあれば、異なる画像（主に動物）を生成することもあります。 “Apoploe vesrreaitais” ははるかに堅牢であり、さまざまな方法で組み合わせることができることがわかりました。また、他の堅牢なプロンプトを見つけることは困難であり、多くの実験が必要であることを強調したいと思います。

　実験では、DALLEに画像を生成させるさまざまな方法を試し、生成されたテキストの一部を選択して、その一貫性をテストしました。このように機能するぎこちないプロンプトは非常に見つけるのが困難ではありますが、存在するということ自体は大きな「セキュリティ」の問題としても理解できます。

　このような特定の機能をする単語の存在によって、システムが想定しない機能をする危険性が指摘されています。またセキュリティ問題として、これらの特定の単語を利用して、バックドアの敵対的攻撃またはフィルターを回避する方法として使用する可能性があることも問題視されます。現在、自然言語処理システムは、ポリシールールに違反するテキストプロンプトをフィルタリングしていますが、この「ぎこちないプロンプト」を使用してこれらのフィルターをパスすることができます。

まとめ
　ソシュールが提唱するように、言葉とは単独で存在するものではなく、意味的ネットワークのなかでほかの言葉とのなかで存在すると考えられています。単語と画像のつながりを学習する中で、人間が想定していないようなモデル内部にのみ利用できる単語が存在したとしても不思議ではありません。研究チームが指摘しているように不透明なことが多く今後の研究の発展が待たれますが、モデルの利用という観点から考えると、人間がAIを使いこなすために新たなトレーニングが必要になることなどが考えられます。