FAIRから公平性のための人物データセットCasual Conversationsが発表されました!

FAIRから公平性のための人物データセットCasual Conversationsが発表されました!

はじめに
 FAIRがCasual ConversationsとよばれるAIの公平性をチェックするための新たなオープンデータセットを公開しました。

〇FAIR AI Blog
Shedding light on fairness in AI with a new data set
https://ai.facebook.com/blog/shedding-light-on-fairness-in-ai-with-a-new-data-set/

〇データセットの取得について
Casual Conversations Dataset
https://ai.facebook.com/datasets/casual-conversations-dataset/

〇論文
Towards measuring fairness in AI: the Casual Conversations dataset
https://ai.facebook.com/research/publications/towards-measuring-fairness-in-ai-the-casual-conversations-dataset

概要

 近年、AIがもつバイアスなどが問題されています。(女性を正しく判別する確率が下がるなど)今回、3千人超の参加者による4万超のビデオで構成されるデータセットがFAIRから発表されました。このデータセットは、サードパーティによってラベル付けされた情報やMLモデルを使用して推定された情報がラベル付けされた一般的なデータセットとは対照的に、(給与を支払うことで)年齢と性別を正確に提供した個人(役者)からなる最初の公開データセットとされています。また、照明の当たり具合にたいするアノテーションも訓練したアノテーターによるものにすることで、光の当たり方と肌の色に関して正確な学習を可能にさせることができるようにしました。
 AI研究者が、年齢、性別、見かけの肌の色、周囲の照明などのサブグループでラベリングされており、コンピュータービジョンとオーディオモデルの公平性を評価するために有用なツールとして機能することが期待されています。

 

詳細

AIをめぐる緊急かつ継続的な課題

  現行のAIモデルでは、すべての肌の色を反映していないデータセットから学習する場合、特定のサブグループの人々を認識する際の精度が低下する可能性があります。また、意思決定を支援するAIで人を不当に排除することがあることが明らかになっています。これらの挙動などから、AIが公平性を阻害しているとして問題視されています。もちろん、公平性は、アプリケーションだけでなく、製品が使用される環境、文化、およびコミュニティによっても異なります。ただし技術的な実装は、より広範な公平性を担保するために重要な要素であると考えられています。
 AIシステムの公平性を向上させる上での未解決の課題のひとつとして、複雑な実世界のAIシステムにおける潜在的なアルゴリズムのバイアスを評価するのに役立つように設計された高品質のデータセットがないことが指摘されていました。今回、FAIRでその穴を埋めるようなデータセットが公開されました。

Casual Conversations

 Casual Conversationsは3,011人の俳優からなる45,186本のビデオで構成されたデータセットです。各俳優はプロジェクトへの参加に同意し、年齢と性別のラベルを明示的に提供しており、本人の申告に基づく正確なラベリング付与されている最初の大規模な公開データであるとされています。またフィッツパトリックスケールを使用して訓練を受けたアノテーターによって提供された見かけの肌の色調のラベルが含まれており、研究者がこれらのグループに沿った正確さについてコンピュータービジョンとオーディオモデルを評価するのに役立つとしています。これらの訓練されたアノテーターはまた、モデルが暗い周囲条件下でさまざまな肌の色調を持つ人々をどのように扱うかを測定するのに役立つ周囲照明条件でビデオにラベルを付けました。
 ただし、このデータセットは許可された目的のために、コンピュータービジョンおよびオーディオアプリケーションですでにトレーニングされたモデルのパフォーマンスを評価するために使用されることを目的としています。純粋にモデル測定用であるため、性別、年齢、肌の色を特定する特定のタスクの学習用への利用は許可されていません。また出身地については明らかにならないよう十分な配慮がなされいます。性別についても、調査参加者の性別を収集する際に、男性、女性、その他の選択肢を提供しました。

汎用性

 現在の学習データは、検証データは存在するものの、そもそも訓練データとおなじドメインから供給されるために、同じ欠点を有している危険があります。CasualConversationsデータセットは、データセットで表されるコミュニティの精度テストに加えて、コンピュータビジョンとオーディオモデルの公平性を測定するための補足ツールとして使用することができます。このデータセットは、年齢、性別、見かけの肌の色、周囲の照明条件の4つの次元で、異なるサブグループ間でパフォーマンスが等しくない可能性があるインスタンスを表面化するように設計されています。ただし、肌の色と周囲の照明はオーディオモデルだけに関連する次元ではないため、研究コミュニティは、関連する次元に沿ったオーディオモデルの包括性をテストするためのデータセットの責任ある開発を調査することが推奨されています。
 データセット内はラベルに基づき均一に構成されています。このラベルの均一な分布は、測定における不均衡な分布誤差を特定するのに役立ち、研究者が潜在的なアルゴリズムのバイアスを明らかにすることを可能にします。標準のフィッツパトリックスケールグループ化システムは、明るい肌の色に偏っているため、多様性を捉えるのに制限があります。このバイアスを軽減するために、フィッツパトリックの肌タイプを明るい肌[タイプI、II]、中程度の肌[タイプIII、IV]、暗い肌[タイプV、VI]の3つのバケットにグループ化することを行っています。サブグループ内だけでなく、それらのグループのさまざまな交差点間でも分布のバランスが取れていることを確認することも重要な観点となっています。

ディープフェイク検出器について

 コンピュータービジョンの重要なアプリケーションの1つに、ディープフェイク検出器があります。(AIで生成されたビデオと実際のビデオを区別することを目的とした、メディアフォレンジックの急成長分野です。)メディア操作は常に進化している問題であり、FacebookAIおよび業界全体の研究者は 最先端の検出器の開発しており、誤解を招く動画にフラグを立てることができます。しかし、年齢、性別、見かけの肌の色など、さまざまなサブグループ間でこれらの検出器がどの程度うまく機能するかなど、未解決の問題がまだあります。今回のデータセットこの分野の進歩を促進するように設計されています。
 今回発表されたデータセットを適用して、Deepfake Detection Challengeの上位5名のサブグループごとのパフォーマンスを、ペーパーのカジュアルカンバセーションデータセットと重複する約5,000本のビデオで測定しました。最終的に、すべてのアプローチで、特に肌の色が濃い人(タイプVおよびVI)の偽のビデオを特定するのに苦労していることを発見しました。すべての提出物の中で、最もバランスの取れた予測を持つモデルが実際には3位の勝者であることなども明らかになりました。

まとめ

 AIの公平性に関しては度々問題になっており、特にFacebookは不公平を助長していると批判されることもあり、力を入れている分野です。 今後、特に商用利用するAIなどでは公平性を担保する必要が迫られることはほぼ間違いないと考えられるため、今回のデータセットは学習には使えませんが、検証用に積極的に利用することは重要であると考えられます。