自然言語処理に手話を含めることを求めた論文を紹介!

自然言語処理に手話を含めることを求めた論文を紹介!

はじめに

 自然言語処理(NLP)コミュニティに対し、社会的および科学的影響の大きい研究分野として手話を含めるように求める論文が、Computational Linguistics(計算言語学協会)の第59回年次総会で、最優秀テーマ論文賞を受賞しました。

Carnegie mellon大学コンピュータサイエンス学部公式HP (2021/08/09)
『LTI Master’s Student Urges NLP Focus on Signed Languages』
https://www.cs.cmu.edu/news/2021/nlp-signed-languages

論文
『Including Signed Languages in Natural Language Processing』
https://arxiv.org/pdf/2105.05222.pdf

背景

 自然言語処理(NLP)の進歩により、コンピュータが人間の言葉を理解できるようになり、人々のコミュニケーションを支援することができるようになりました。しかし、NLP の研究は音声言語のみを対象としていることが多く、世界に存在する200以上の手話言語や、それらを用いてコミュニケーションをとる可能性のある約7,000万人の人々は対象外となっています。

論文概要

 まず、論文前半では、手話の言語的特性及び従来のNLP手法を手話に拡張する際に生じる未解決の課題について述べられています。

 手話は、音韻論、同時性、会話内での参照、フィンガースペリングなどの言語的特性を持ちます。音声言語が主に聴覚様式を用いるのに対し、手話言語は視覚・聴覚様式を用い、手話者の顔、手、体、そして周囲の空間を頼りに意味の区別を行います。そのため、これらの言語的特性は手話言語をモデル化するときに考慮される必要があります。論文では、NLPを手話に拡張するための未解決の課題が指摘されています。

課題

手話で伝えられた情報を取り入れるために用いる映像について
 映像は次元が高いため必要以上の情報が含まれており、保存、送信、エンコードにコストがかかります。また、符号化には顔の特徴が不可欠であるため、生のビデオを匿名化するという課題は未だ解決していません。

ポーズについて
 ポーズは、映像から得られる視覚的な手掛かりを、関節の位置を表すワイヤーフレームやメッシュに変換します。ポーズは映像と比較して、情報損失が低く匿名化もされていますが、連続した多次元の表現であるため、ほとんどのNLPモデルには適合しません。

書き言葉による表記システムについて
 直線的に書かれたシステムもあれば、二次元的に記号を使用するシステムもありますが、どの手話コミュニティでも広く採用されている表記システムはなく、標準がありません。そのため、プロジェクト間でリソースやアプリケーションを交換することや、統一することができないのが現状です。図1は、2つの普遍的な表記法を示しています。SignWriting は、2次元の記号で、HamNoSys は、機械で読めるように設計された、直線的な文字列です。


図1 アメリカ手話のフレーズを、ビデオフレーム、ポーズ推定、SignWriting、HamNoSys、用語集などで表現したもの(論文より引用)

手話言語を手話ごとに転写することについて
 すべての手話には、固有の識別子があります。しかし、様々な手掛かり(体や手の動きなど)によって同時に表現されるすべての情報を適切にとらえることができないため、意味的なレベルで情報の損失は避けられず、後の処理に影響を及ぼしてしまいます。

 以上を踏まえ、論文後半では(1)効率的なトークン化手法の採用(2)言語情報に基づくモデルの開発(3)実世界の手話データの収集(4)研究の方向性に、積極的かつ主導的な意見として地元の手話コミュニティを含めること、について論じています。

まとめ

 NLPコミュニティには、既に成功した音声言語処理方法が多くあり、また、コンピュータビジョンツールの最近の出現と相まって、より良い手話言語モデルの開発に有利な立場にあると考えられています。手話言語モデルの開発に関心と努力が高まり、今後NLPに手話が取り入れられることが期待されます。