はじめに
米ワシントン大学が音声がない演奏動画から音楽を再構築するAI「Audeo」を開発しました。
‘Audeo’ teaches artificial intelligence to play the piano
https://www.washington.edu/news/2021/02/04/audeo-teaches-artificial-intelligence-play-piano/
論文
Audeo: Audio Generation for a Silent Performance Video
https://arxiv.org/abs/2006.14348
概要
AIが音声のない動画から音楽を再構築することができるかどうかを調べるための研究が米ワシントン大学で行われました。音楽としてメロディを高い精度で復元することができ、今後アプリケーションなどで応用されることが期待されています。
Audeo
目的
ピアニストがピアノをひく映像(鍵盤部)から、演奏された音楽を生成できるかどうかを確認することが目的です。そのため、音楽として質が高いものを複製することははじめから目的としていません。
仕組み
Audeoはビデオ内の動作を楽譜にデコードし、それを音楽に変換します。
まず、時間の経過とともに楽譜を作成するために、各ビデオフレームでどのキーが押されたかを検出する必要があります。このステップだけで音楽を合成しようとすると、音楽の品質が不十分であることがわかりました。そのため、次に、その楽譜を、音楽シンセサイザーが実際にピアノが発する音として認識するものに変換する必要があります。この2番目のステップでは、データがクリーンアップされ、各キーがどれだけ強く押されたか、どのくらいの時間押されたかなどの情報が追加されます。
学習に利用された無音動画
Audeoが作成した音楽
精度
Audeoで生成された音楽に対して、音楽認識アプリSoundHoundを利用すると86%の精度で楽曲名をあてることができました。(もとの音楽から楽曲名を認識させた場合、93%の精度でした。)
応用
将来的な応用方法としては、人の手だけを記録するカメラを備えた仮想ピアノに拡張する方法が考えられています。また、本物のピアノの上にカメラを置くことで、生徒に演奏方法を教える新しい方法を支援できる可能性があります。
まとめ
演奏映像から音楽を再構築するというのは、実用的な研究というよりも興味心に基づく研究と言えます。こうした研究は社会をおおきく変える可能性を秘めているともいえます。(車の数を数える物体検出モデルなどは、実用性が高く研究も進んでいますが、一方で社会に変化を与える研究とは言い難いものです。)音声認識の世界では、ほかにも音声がない動画に対して物体の微妙な振動から音声を再生しようとする試みなどもあり、今後視覚と聴覚間でのモデルの交流が進むと、いままで想像していない社会の在り方が可能になるかもしれません。