【CVPR2021】仏レンヌ大学による新たな群衆トラッキング用データセット「CroHD」とモデル「HeadHunter」を詳細解説！

はじめに
　フランスのレンヌ大学やフランス国立情報学自動制御研究所の研究チームが頭部に注目した群衆トラッキングのためのベンチマークデータセット CroHD 及び新たな評価指標 IDEucl、ベースラインモデル HeadHunter (頭部検出モデル) 及び HeadHunter-T (トラッキングモデル) を発表しました。

◎論文
Tracking Pedestrian Heads in Dense Crowd
https://arxiv.org/pdf/2103.13516.pdf
※なお、特に断りがない限り、記事内にある図及び表は上記論文から引用しております。

1. 概要
- 1.1. 論文のポイント
2. 詳細
3. まとめ

概要

　群衆のトラッキングは、複数の物体をトラッキングするタスク Multiple Object Tracking（MOT）においても難度の高いものとして知られています。人数が増えると、相互オクルージョンが生じ、可視できる範囲が減っていくためです。
　今回、比較的確認しやすい頭部に注目し、頭部をトラッキングすることでより精度のたかい群衆トラッキングができるのではないかと研究チームは考え、頭部トラッキング用の新たなベンチマークデータセット CroHD の提案を行いました。
　またより精確にトラッキングできたことを評価する新たな評価指標である IDEucl の提案、ベンチマークデータセット CroHD に対するベースラインモデルとなる HeadHunter 及び HeadHunter-T の開発も行っています。

論文のポイント

・アノテーションされた歩行者の頭部を含む新しいデータセット CroHD の提供。
・より精確にトラッキングし続けたことを測るための新たな評価指標 IDEucl の提案。
・ CroHD のためのベースライン頭部検出器 HeadHunter 及びトラッキングモデル HeadHunter-T の開発。

詳細

背景

　複数の物体をトラッキングする Multiple Object Tracking（MOT）は従来難度の高いタスクとして知られていましたが、近年の研究によりかなり高精度に検出することができるようになってきました。
　しかし、いまだに密度の高い群衆を追跡することは難度の高いタスクとして存在しています。密度が高くなると、オクルージョン（画像内の物体が干渉しあい、ほかの物体を可視できなくすること）の発生頻度が高くなり、追跡することが困難になっていきます。
　今回、比較的確認しやすい人間の頭部に注目することで群衆トラッキングをより精確に行うことを目指しました。

CroHD：頭部トラッキング用データセット

　今回、頭部にアノテーションされた頭部トラッキング用のベンチマークデータセット CroHD が新たに作成されました。
　CroHD は Full-HDの解像度でが９個の動画（計 11,463 フレーム、25 fps）からなり、計 2,276,838 の頭部が含まれています。
　これまでの CVPR19 の MOT Challenge で使われていたデータセットと連続性があり、新たに渋谷の駅とスクランブル交差点の動画が追加されたものになります。

クラス分類
Pedestrian：通常の歩行者
Person on Vehicle：乗り物に乗っている人
Static：動かない人
Ignore：銅像など人間に判定される恐れがあるが関係ないもの

IDEucl：トラッキング評価指標

　従来は mean Average Precision (mAP)、 Multiple Object Detection Accuracy (MODA)、 Multiple Object Detection Precision(MODP) 、 mAP COCO などが使われてきました。
　これらはトラッキングの軌跡が測られるものではありません。しかし、より有効なトラッキングを行っているモデルを判定するためには定量的にトラッキングの成功を判断することが可能な評価指標が重要になってきます。そのため、IDEuclを新たに画像座標空間における正解軌跡との比率によって構成します。
　この考え方は、既存の指標であるIDF1に近いものですが、以下のような違いがあります。

IDF1：一貫したIDが維持されている正解フレームの割合を測定するもの。
IDEucl：正しいIDが割り当てられた移動距離の割合を測定するもの。

　そのため、以下のようなトラッキングの状況に差があったとしても、IDF1の場合、どちらも0.5と評価され、３回スイッチしたとだけ示されてしまいます。IDEucl なら、A=0.3、B=0.67と評価され、より適切に精度の差を示すことができるようになります。

HeadHunter：頭部検出モデル

　物体検出用に従来のモデルと異なり検出する物体の性質や大きさを考慮した HeadHunter を開発しました。

HeadHunter の特徴
・ ResNet-50 をバックボーンとした FPN を利用。（異なる大きさに対応する。）
・ FPNのトップに a Context-sensitive Prediction Module (CPM)を付属。
・ Transpose Convolution の実装。（画像上では比較的小さい頭部をアップスケールする。）
・ RPN 付きの Faster-RCNN を利用。

HeadHunter-T：頭部トラッキングモデル

物体検出モデルである HeadHunter に２つのモーションモデルと色ヒストグラムに基づくRe-ID モジュールを追加して、トラッキングモデル HeadHunter-T として拡張しました。

HeadHunter-T の特徴
・ SMC（逐次モンテカルロ法）に基づく粒子フィルタによる歩行者の行動予測：頭の急速な動きとフレーム間の歩行者の変位によって発生する動きの非線形性を補完する。
・シーケンス内のカメラの動きを補正するための相関係数の最大化の強化
・ NMSを利用したトラッキングの初期化：NMSを利用して新規の物体か、既存の物体かどうかを判断する。

粒子（＝歩行者の頭部）フィルタリングの予測、更新及びリサンプリングについて
① まず時間 t > 0 で、アクティブなトラックに対応する粒子のバウンディングボックスを使用して、現在のフレームの特徴マップで RoI プーリングを実行します。
② 次に、現在のフレームでの各粒子の位置は、前のフレームでの位置を指定して、HeadHunter の回帰ヘッドを使用して調整されます。
③ HeadHunterの分類ヘッドからのそれぞれの前景分類スコアが、各粒子の重要度の重みとして設定されます。
④ 各粒子の新しい位置と重要度の重みが与えられると、k番目のトラックの推定位置が粒子の加重平均として計算されます。

　粒子フィルタリングフレームワークは縮退の問題により、重要度の低い重量の粒子を置き換えるためにリサンプリングする必要があります。そのため k 番目のトラックに対応する M 個の粒子は、各ヘッドの位置の確率分布に有意義に寄与する粒子の数がしきい値を超えると再サンプリングされるように設定されています。