はじめに
Facebookアプリで行われている次文予測に関するAIについて説明します。
How AI learns to help finish your sentences
https://ai.facebook.com/1319742961447503/videos/766066247646295/
概要
円滑なコミュニケーションを行うためには、相手に合わせて適切な文章を構築する必要があります。しかし、文章を打ち込む作業自体は負担であり、その作業をどれくらい減らすことができるか、はコミュニティやコミュニケーションを重視してきたFacebooにとっては重要なテーマです。
近年の方法の一つにAIによる次文・次単語予測があります。ただし、AIによって、文章・会話を作成者の意図通りに補完するには、論理的かつ文法的に正しいだけでなく、会話のより広い文脈に関連するフレーズを適切にとらえる必要があります。
現在、Facebookが利用しているAIは、会話の文脈を理解し、条件に応じた適切な文章を埋めることができるようになったとしています。将来的には、キーボードを超え、AR/VRなどで、指差し程度の操作で、コミュニケーションがスムーズに行えるレベルの次文予測の可能性を模索しています。
AIについて
次文予測が高いレベルでAIでできるようになった背景には、生成言語モデルの成長があります。再帰型ニューラルネットワーク(RNN)が文章の文脈を理解できるようになったことで、生成する言語が文脈を踏まえたものになることができました。現在、Facebookで利用しているモデルは、RNNを発展させたLSTMモデルをです。
実用化に際して
次文予測モデルを実用化するにあたり、①提案文に対するフィルター、②精度と速度のトレードオフ、に対して十分な配慮がなされています。
提案文に対するフィルター
単純に言語生成モデルに次文予測をさせると、不適切な言葉(とくに相手を誹謗中傷するような用語)を選択してしまう場合もあります。Facebookではそうした言葉に対して、コミュニティを脅かすものであるとして、排除する方針で動いています。そのため、不適切なボキャブラリーフィルターを利用することで、事前に不健全な言葉が提案されることを防いでいます。
精度と速度のトレードオフ問題
実際に利用する場合、キーストロークごとに数百ミリ秒未満で最善の提案を提示する必要があります。そのため、予測精度と速度のトレードオフに関して、非常に考慮されたうえで開発、実装されています。
特にすべての単語を候補として探索するのはむずかしいため、(部分的な最適シーケンスを計算し検索スペースを最も有望な候補だけに制限する)ビームサーチアルゴリズムを利用することで、単語の予測速度を向上させています。またそれだけでなく、蒸留を行い、巨大なモデルを圧縮することで、よりモデルの効率化を図っています。
まとめ
言語生成モデルの性能は向上していますが、同時に人間の制御できる範囲を超えてきている印象もあります。精度が優れていることで知られているGPT-3などでは利用しているデータセットがもはや人間の手で厳密に監査されていないため、バイアスや不適切な発言を生成することで知られています。実応用の場では精度だけでなく、検証すべき点が多々あることを示しています。