【CVPR2021】軽量なオブジェクトトラッキングモデル「LightTrack」を詳細解説!

【CVPR2021】軽量なオブジェクトトラッキングモデル「LightTrack」を詳細解説!

はじめに
 オブジェクトトラッキングタスクは精度の向上のためにモデルが肥大化する傾向にあります。現実の限られた資源化で運用するにはモデルの軽量化が必要です。今回、 Microsoft Research Asia の研究チームが CVPR2021 で効率的なアーキテクチャを探索するNASをオブジェクトトラッキングタスクに対して初めて適用した LightTrack を発表しました。

◎論文
 LightTrack: Finding Lightweight Neural Networks for Object Trackingvia One-Shot Architecture Search
 https://arxiv.org/pdf/2104.14545.pdf

概要

 オブジェクトトラッキングタスクは精度の向上が図られる一方でモデルの肥大化も著しく、現状の SOTA モデルが実用の場に適したモデルの大きさになっていないという問題がありました。今回、モデルの軽量化として NAS ( neural architecture search )手法を用いることでより資源に最適化したモデルを提案することを可能にしました。

論文のポイント

・オブジェクトトラッキングに対してNASを初めて適応させた。
・探索されて提案されたモデルで、現状のSOTAモデルよりもよい結果をだすことができた。

詳細

背景

 オブジェクトトラッキングタスクは精度が向上する一方で、モデル容量が大きくなり、エッジデバイスなど限られた計算資源のなかで利用できないなどの問題がありました。そのため、モデルの軽量化が必要であるが、従来のモデル軽量化手法としては、①モデルの圧縮や、②モデルをコンパクトにデザインする、ことが行われていました。しかし、「モデルの圧縮」はもとモデルよりもどうしても情報を失うため、精度が下がることが避けがたいという問題があり、「モデルをコンパクトにデザインする」ことは、エンジニアリングコストが大きく、かつ個人の経験にも依ってしまうという問題があります。
 そのため、近年NAS(neural architecture search)という、限られたリソース下で効率的な実行を可能にするアーキテクチャを探索する手法が提案され始めています。今回、研究チームは NAS をオブジェクトトラッキングに対して初めて行いました。

NAS

基本的なNAS
 すべての候補アーキテクチャをスーパーネットワークの異なるサブネットワークとして扱い、共通する要素の重みを共有していきます。
 

 スーパーネットの損失を減らすように学習する一方で、サブネットワークの検証精度をランキングして最適なモデルを探索します。(スーパーネットを学習するだけでよく、サブネットワークは学習する必要はありません。)

LightTrack

 ベースの NAS をオブジェクトトラッキングに対して改良したのが、 LightTrack になります。 

LightTrack図

①画像分類事前学習(ImageNet)
 オブジェクトトラッキングタスクでは画像分類タスクで事前学習をする必要がある一方で、スーパーネットは目的とするタスクを学習する必要があります。つまり、オブジェクトトラッキングタスクでは単純な NAS ではなく、 ImageNet (画像分類タスク)での事前学習とトラッキング用の学習データでのファインチューニングを考えないといけません。
 LightTrack では一度バックボーンスーパーネットだけ事前学習してスーパーネットに重みを共有した後に、トラッキング用の学習データでヘッドとバックボーンの両方のスーパーネットを学習します。

②オブジェクトトラッキング学習
 特徴量抽出ネットワークと位置測定ネットワークの2つが通常オブジェクトトラッキングタスクでは必要とされます。そのため、 NAS では双方を組み合わせた最適モデルを見つける必要があるため、2つを一つにまとめて考えないといけません。また、最終的に求めるモデルはオブジェクトトラッキングの検証データに対して精度がよいモデルです。
 そのため、以下のように目的関数が定められます。

③探索空間の決定
 コンパクトで低レイテンシーのブロックをさがすことになります。

実験結果

提案されたモデルアーキテクチャ
 LightTrack を用いて提案されたモデルは以下のようになります。

精度比較
 提案したLightTrackで探索されたモデルは EAO(expected average overlap: オブジェクトトラッキングのコンペティションVOTで使用される評価指標。 accuracy と robustness を組み合わせた概念。)で既存のSOTAよりもよい精度を出しました。
 また、計算処理速度の評価指標である FLOPs でもよい成果を出しました。

まとめ

 これまではモデル軽量化として、モデル圧縮手法である剪定などが行われてきました。これは不要な重みがあることに着目した方法ですが、「宝くじ仮説」などではより大きな見方でネットワークのなかに不要なサブネットワークがあるのではないか(=より情報を処理している有効なサブネットワーク)、という考え方も存在します。今回の NAS はそうした手法ともいえ、今後より有効な部分だけを取り出すような手法が発展していくことが考えられます。