群集カウントの最新サーベイ論文（2020年3月末時点）_詳細解説版

CNNをベースとした群衆カウントの論文の概要をまとめました。
参照もと論文URL
https://arxiv.org/pdf/2003.12783.pdf

1. 論文概要
2. Ⅰ．導入
3. Ⅱ．群衆カウントモデルの分類
- 3.1. ベースモデルの変遷
- 3.2. 分類項目
4. Ⅲ．データセット
5. Ⅳ．評価指標
6. Ⅴ．ベンチマークと分析
7. Ⅵ．ディスカッション
- 7.1. 群衆カウントにおいて考慮すべき点
- 7.2. 今後の課題
8. まとめ

論文概要

論文タイトル
CNN-based Density Estimation and CrowdCounting ：A Survey
（https://arxiv.org/abs/2003.12783）

著者
Guangshuai Gao, Junyu Gao, Qingjie Liu, Qi Wang, Yunhong Wang

内容
・群集カウントモデルのサーベイ論文。
・CNNベースの密度推定と群集計数モデルについて、ネットワークアーキテクチャ、学習パラダイムなどの観点から調査を実施。
・性能向上を補助する属性や技術をまとめた。

GitHub
https://github.com/gaoguangshuai/survey-for-crowd-counting

論文構成
１．導入
２．群集カウントの分類
３．データセット
４．評価指標
５．ベンチマークと分析
６．ディスカッション
７．まとめ

Ⅰ．導入

　ひとつの画像に含まれる物体の数を正確に推定することは、困難なタスクである。しかしながら都市計画や公共安全などあらゆる面で社会的に有用なタスクでもある。特に群衆カウントの技術開発は社会保障に重要な意味をもち、そのうえ技術転用も可能なため、無数の研究がなされ多くの優れた論文や著作が存在している。本論文は220以上の論文を調査し、主にCNNベースの密度マップ推定法を中心に、群衆カウントモデルを総合的かつ体系的に検討・分析している。今後の群衆の発展に向けた合理的な推論と予測、また他分野においても実現可能な解決策の提供に貢献できることが期待される。なお、本研究では、比較・検証のために、NWPUデータセットの検証セットにいくつかの主流アルゴリズムの密度マップと予測結果、また密度マップの生成と評価ツールも提供している。

Ⅱ．群衆カウントモデルの分類

ベースモデルの変遷

　初期にはイメージ上の数を直接カウントしようとして検出ベースモデルが作られた。その後、イメージ全体から数を推定するために回帰ベースモデルが提唱され、現在ではイメージ内の密度を推定することでより正確な数の測定を目指している。

(1)検出ベースモデル　Detection based

・画像のスライディングウィンドウを介して人もしくは頭部を検出する。
・近年では、R-CNN/YOLO/SSDなどが劇的に精度改善に貢献する可能性はある。
・ただし、非常に密集した群衆に関しては効果が期待できない。

(2)回帰ベースモデル　Regression-based

・検出ベースモデルで解決できなかった問題を軽減するために、イメージパッチからカウントへのマッピングを直接学習する回帰を導入。
・全体特徴 global features もしくは部分特徴 local featuresを抽出し、線形回帰linear regressionとガウス混合回帰Gaussian mixture regressionを用いる。

(3)密度推定モデル　Density estimation

・回帰ベースモデルでは空間情報 spatial informationを無視してしまう問題があった。
・そのため、局所特徴と対応する密度マップとの間の線形マッピングを学習する密度推定を採用。
・線形マッピングの難しさを軽減するために、非線形マッピング、ランダムフォレストが推奨される。
⇒CNNベースの密度推定モデル　CNN-based density estimation
・初期には基本的なCNNを用いて作成され、近年ではFCNに基づくより効果的で効率的なモデルが作られ、主流となっている。FCNはモデルごとに教師レベルと学習パラダイムが異なる。

分類項目

モデルは主に以下の6項目を軸として分類された。
A)ネットワークアーキテクチャ
B)学習パラダイム
C)推論方法
D)ネットワークの監視形式
E)ドメイン適応
F)インスタンスレベル／イメージレベル

A)ネットワークアーキテクチャ

モデルに採用されているネットワーク構造によって分類する。
(1)ベーシックネットワーク　Basic Networks
　基本的なCNN構造で、CNNを用いた密度推定や群集測定の初期に使われた。基本的なCNN層である畳み込み層、プーリング層、一意的に完全に接続された層を採用しており、追加の特徴情報を必要としない。
メリット：シンプルで実装が簡単。
デメリット：通常は精度が低くなる。
(2)マルチカラムネットワーク　Multi-Column Networks
　異なる受容野に対応するマルチスケール情報を補足するために複数のカラム構造を採用している。
メリット
・群衆カウントのために優れた性能がもたらされる。
デメリット
・学習に時間が必要で、実装が困難。
・異なる分岐を利用しているもののほぼ同じネットワークを利用するため、全体としては冗長になりやすい。
・画像をネットワークに送信する前に密度レベルの分類器が必要だが、実際にカウントする群衆の数は計測の度に大幅に変化するために密度レベルの細かい定義が困難。また、きめの細かい分類はより多くのカラムと構造を必要とするため、より冗長性が高まる。更に、密度レベルの分類器のために大量のパラメータを必要としてしまう。
(3)Single-Column Networks
　マルチカラム・ネットワーク・アーキテクチャのような肥大化した構造ではなく、単一で深みのあるCNNを展開しており、ネットワークの複雑さを増やさないことが前提となっている。
メリット：シンプルかつ高性能を維持することができる。

B)学習パラダイム

　モデルをどのような目的において学習させるかのパラダイムの観点の違いから、群集カウントネットワークは、シングルタスクとマルチタスクに基づいた手法に分類することができる。
(1)シングルタスクベース　Single-task based
　古典的に用いられる方法で、ほとんどのCNNベースの群集カウント法はこのパラダイムに属する。一般的に密度マップを生成し、すべてのピクセルを合計して総カウント数を得るか、もしくは直接カウント数を得る。
(2)マルチタスクベース Multi-task based
　近年では様々なコンピュータビジョンタスクにおけるマルチタスク学習の成功に触発されて、密度推定と分類、検出、セグメンテーションなどの他のタスクを組み合わせて、より良い性能を示している。マルチタスクベースの手法は一般的に複数のサブネットを用いて設計されており、純粋な単一カラムアーキテクチャとは対照的に、異なるタスクに対応する他のブランチが存在する場合もある。つまり、マルチタスクアーキテクチャは、マルチカラムとシングルカラムの間のクロスファーチャリゼイションと考えることができるが、双方とは明確に異なるものである。

C)推論方法

　イメージのどの部分を用いて推論するかで分類する。
(1)パッチベースメソッド（Patch-based methods）
　画像からランダムに切り取られたパッチを用いて学習するために必要とされる。テスト段階では、テスト画像全体に広がるスライディングウィンドウを用い、各ウィンドウの推定値を取得し、それらを組み立てることで画像の最終的な合計カウントを得る。
(2)全体画像ベースメソッド（Whole image-based methods）
　パッチベースの手法は常に大域的な情報を無視している。また、スライディングウィンドウ演算のために計算コストの負担が大きい。全体画像ベースの手法では、画像全体を入力とし、それに対応する密度マップや群集の総数を出力するのが一般的である。一方で、ローカル情報を失う場合がある。

D)教師あり学習法

　学習方法において教師データの有無によって分類する。
(1)完全教師あり学習（Fully-supervised methods）
　ほとんどのCNNをベースとした群衆カウントモデルは大規模かつ手動で正確なアノテーションをつけたデータに依存している。しかし、これらのデータの取得には時間がかかり、通常よりもラベル付けの負担が大きい。また、ラベル付けされたデータが少ないために、オーバーフィットの問題に悩まされることがあり、自然域や他の領域に移植する際に性能が著しく低下する可能性が高い。したがって、ラベル付けされたアノテーションの少ない、あるいはラベル付けされていないデータでの学習は、今後の有望な研究課題である。
(2)非／半／弱／自己教師あり学習（un/semi/weakly/self-supervised methods)
　教師なし／半教師あり学習は、グラウンドトゥルースラベル（正確さや整合性をチェックするためのデータに基づくラベル）を使用せずに、もしくは少数のみ使用して、学習することを意味する。自己教師あり学習は、教師付きタスクとは異なるが、教師付きタスクに関連した補助タスクを追加することを意味する。完全教師あり学習法と比べて同程度のパフォーマンスに到達するためのラベルなしデータが開発されている方法も存在する。

E)ドメイン適応

　ドメインの違いによって分類することができる。既存の計数手法は、ほぼすべて特定のドメインに対して設計されている。そのため、どのようなオブジェクトドメインでも測定できるカウントモデルを設計することは、挑戦的でありながらも意味のある作業である。ドメイン適応技術は、この問題に取り組むための強力なツールとなりうる。

F)教師データの性質（インスタンスレベル／イメージレベル）

　オブジェクトカウントの目的は、オブジェクトの数を推定することである。グラウンドトゥルースデータ（正確さや整合性をチェックするためのデータ）がポイントまたはバウンディングボックスでラベル付けされている場合、インスタンスレベルの教師データに関係していると分類する。一方でイメージレベルの教師データとは、代わりにポイントやバウンディングボックスとは異なるオブジェクトにおいてインスタンスの数を把握する必要がある。

(1)インスタンスレベル教師データ（Instance-level supervision）
　ほとんどの群集密度推定法は、インスタンスレベル（ポイントレベルまたはバウンディングボックス）の教師データに基づいており、インスタンスの位置ごとに手動でラベルを付けたアノテーションデータが必要となる。
(2)イメージレベル教師データ（Image-level supervision）
　イメージレベル教師データに基づく手法では、位置情報を必要としないsubitizing範囲内またはそれを超えたインスタンスの数を瞬時に判断する必要がある。一瞬もしくは一目で数を推定させるようなイメージ。

Ⅲ．データセット

　群衆カウント技術の発展に伴い、多数のデータセットが導入されている。規模のばらつき、監視映像中の背景の乱雑さ、変化しやすい環境、自然界での照明のばらつきなど、様々な課題に対応するためにより多くのアルゴリズムが導入されている。

Ⅳ．評価指標

　評価指標にはその目的及び利用するレベルに応じて3種類に分類できる。
(1)カウント性能を評価するためのイメージレベル
(2)密度マップクオリティーを測るためのピクセルレベル
(3)局在化の精度を評価するためのポイントレベル

(1)イメージレベル指標

　主に使われる指標として、平均絶対誤差（Mean Absolute Error:MAE）と平均二乗誤差（Mean Square Error:RMSE）がある。MAEは推定の精度、RMSEは推定のロバスト性を示す。

（Nはテスト画像の番号、Cprea/IiとCgt/iはそれぞれ予測結果とグラウンドトゥルースを示している。）

　MAEでは正確な評価を提供するために位置情報が失われる可能性がある。そのため、グリッド平均平均絶対誤差（Grid Average Mean Absolute Error:GAME）が提唱されている。

（４Lは画像をいくつかの重複しない領域に分割することを示す。Lが高いほど、GAME指標の制限が厳しくなる。なおL＝０の場合は、MAEに退行することに注意する。）

　同様にローカライズエラーを考慮して、平均ピクセルレベル絶対誤差（Mean Pixel-level Absolute Error:MPAE）が提唱されている。MPAEは密度が誤って局所化されている度合いを測定する。

　MAEとRMSEの観点では、ローカルの領域を評価できないグローバルな精度とロバスト性の指標になるため、両者を広げるパッチ平均絶対誤差（Patch Mean Absolute Error:PMAE）とパッチ平均二乗誤差（Patch Mean Square Error:PMSE)が提唱されている。

（なお、mは分割された重複しないパッチで、m=１のとき、PMAE⇒MAE、PMSE⇒RMSEになる。）

(2)ピクセルレベル指標

　ピーク信号対雑音比（Peak Signal to Noise Ratio: PSNR）及び構造類似性指数（Structual Similarity Index : SSIM）が生成された密度マップのクオリティーを作成するために使われる。
①PSNR
　最も一般的かつ広範に使われれる画像評価指数である。基本的には対応するピクセル間のエラー、つまりエラー感度に基づいている。一般的に、高い値は小さなエラーを示すとされる。ただし、人間の視覚特性は考慮されない。（例えば、人間は低空間周波数のコントラストの違いや色相よりも明るさに敏感であること、領域の知覚結果は周囲の隣接する領域の影響をうける等々。）そのため、評価結果は多くの場合、人間の主観的な感覚と一致しない。
②SSIM
　明るさ、コントラスト、構造の三要素の掛け合わせから画像類似性を測定する。0:1の範囲を取り、値が大きいほど、画像の歪みは少なくなる。

(3)ポイントレベル指標

　モデルのローカリゼーションパフォーマンスを評価するために、平均適合率（Average Precision : AP）と平均再現率（Average Recall : AR）が使われる。一般的にAPの値が増加すると、ARの値が減少する。したがって、トレードオフの関係性にあり、両者をどのような値にすべきかは検討の余地がある問題である。

Ⅴ．ベンチマークと分析

全体的なベンチマーク結果への評価

・CNNベースモデルVS従来型モデル
　CNNベースを採用すると、従来型よりも大幅に性能が改善されることが示された。また大規模アノーテッドデータに基づくCNNの強力な特徴学習が示されている。
・CNNベースモデル間の性能比較
　2015年以来、年々性能は改善されている。その中でも、群衆測定に対して初めてCNNを用いたCross sceneは、基本的なニューラルネットワーク構造を採用し、事前学習されたCNNをまだ見ぬ状況へと転送するクロスシーン問題を処理するものであるが、最も性能が悪い。そのため、単一シーンモデルやドメイン固有モデルよりも性能が悪くなっている。しかしながら、このモデルは事前学習モデルをまだみぬ状況へ一般化するための優れた解決策を生み出すものである。
※図は代表的な群集カウントの性能の比較。（赤、緑、青はそれぞれ第1、第2、第3のパフォーマンスを示す。）

プロパティベースの分析

A) シングルカラムネットワーク　Single column network
B) 視覚的注意メカニズム　Visual attention mechanism
C)拡張畳み込み層　 Dilated convolution layers
D) 空間転移ネットワーク　Spatial Transformer Network(STN)
E) コンディショナルランダムフィールド　Conditional Random Fields(CRF)／マルコフランダム　Markov Random Fields (MRF))
F) 遠近情報　Perspective information
G) ピラミッドプーリング　Pyramid pooling
H) 汎密度　Pan-density／サブリージョン　subregion

A) シングルカラムネットワーク　Single column network

　最新手法の2/3がsingle column networkを採用している。そのため、おそらく今後はネットワークは広くするのではなく、より深いネットワークの法がよい場合があると考えられる。なおそのうち、1/3以上がVisual attention mechanism及び、dilation convolution layer を組み込んでいる。

B) 視覚的注意メカニズム　Visual attention mechanism

　多くのCNNベースの手法では、入力画像の利用可能なすべての情報を使用する。それに対して視覚的注意メカニズムは、ニューラル応答を計算するために適切な情報を使用し、特徴マップの各ピクセルの重要度を重み付けするために学習することができる。そのため、群衆を含む関心領域を強調表示し、背景のクラッタ状況でノイズをフィルタリングする群衆カウントの問題にも適している。なおこの優れた能力により、視覚的注意メカニズムは、画像分類、意味的セグメンテーション、画像デブレ、視覚的ポーズ推定などの多くのコンピュータビジョンタスクにも適用されている。

C) 拡張畳み込み層　 Dilated convolution layers

　プーリング層の代替となる拡張畳み込み層は、セグメンテーション作業の精度を大幅に向上させることが実証されている。拡張畳み込み層の利点は、プーリング演算（最大プーリングや平均プーリングなど）による情報損失を伴わずに、受容野を拡大することでパラメータの数と計算数（FCN[171]における非畳み込み層のアップサンプリング操作など）を削減することができることである。そのため、より多くのマルチスケール特徴を捕捉し、より詳細な情報を維持するために、非圧縮畳み込み層を群集カウントフレームワークに統合することができる。

D) 空間転移ネットワーク　Spatial Transformer Network(STN)

　STNや変形畳み込みも拡張畳み込み層と同様の効果を持ち、標準的なCNNの特徴不変性の能力を制限する回転やスケーリング、反りの問題に対処することができる。そのため、群集カウントにおけるスケールや回転のばらつきに応用されている。具体的には、STNは副差分サンプリングモジュールであり、余分なアノテーションを必要とせず、異なるデータ間の空間変換を適応的に学習する能力を持っている。またSTNは入力画像上で空間変換を行うだけでなく、異なる特徴マップの空間変換を実現するために、畳み込み層のどの層でも空間変換を行うことができる。
　顕著な性能を保持しているため、STN はマルチラベル画像認識[173]やサリエンシー検出[174]など、多くのコミュニティに適用されている。

E) コンディショナルランダムフィールド　Conditional Random Fields(CRF)／マルコフランダム　Markov Random Fields (MRF)

　CRFやMRFは、メッセージパッシング機構を用いてCNNの特徴や出力を洗練させるためのポスト所有操作として通常活用されてきた。現在の研究では群集カウントタスクのために異なるスケールの特徴を洗練するためにCRFを利用した場合、ベンチマークデータセット上でその有効性が実証されている。また群集カウントのためにCRFと非局所的操作(self-attentionと同様）を統合した注目ニューラルフィールドAttentional neural fields(ANF)フレームワークを提案している研究者もいる。

F) 遠近情報　Perspective information

　遠近の歪みは群集計数における主要な課題である。現在、遠近情報は2つの方法で提供されている。1つはカメラの6自由度（DOF）に関連するものであり、もう1つは計測タスクにおけるカメラからの距離におけるスケールの変化を識別するものである。後者はスケールのばらつきや遠近形状に関する追加情報を提供することができ、多くの伝統的な群集カウント法は、可変スケールの回帰特徴や検出特徴を正規化するためにスケール変化を利用している。最近のCNNベースの手法の中には，遠近情報を利用してグラウンドトゥルース密度や身体部位マップを推定するものもある。これらの手法は、遠近マップを使わずに遠近情報を利用している。ただし、その代わりにネットワーク内の大域的または局所的なスケールを符号化するために遠近マップを利用している。

G) ピラミッドプーリング　Pyramid pooling

　空間ピラミッドプーリング Spatial pyramid pooling(SPP)はもともと視覚認識のために開発されたもので、従来のネットワークよりもいくつかの利点がある。例えば異なるサイズのプーリング層を特徴マップから抽出し、それらを固定長のベクトルに集約することで、ロバスト性と精度を向上させることができ、収束速度を速めることができる。SCNet 、PaDNet 、CANでは、群集計数のためにマルチスケール特徴量の捕捉と融合に用いられている。

H) 汎密度　Pan-density／サブリージョン　subregion

　汎密度群集カウントPan-density crowd countingは、群集シナリオにおける2つの現象、①異なるシナリオでの密度や分布の変化と、②同じシーン内での局所領域の密度の不一致に対応することを目的としている。現在の手法の多くは、特定の密度やシナリオに合わせて設計されているため、汎密度情報を十分に活用することが困難となっている。多くのマルチカラムアーキテクチャがこの問題に対処するように設計されているが、ほとんどの場合、効率が悪く、計算が複雑で、局所推定に偏りがあるという問題を抱えている。しかし、PaDNetは密度汎化ネットワーク Density-Aware Network(DAN)のサブネットワークから特定の群衆を効果的に識別し、特徴強調層 Feature Enhancement Layer(FEL)によって各特徴マップの強調率を学習する合理的な解決策を提供することを提案している。最終的には、これらの特徴マップを融合することで、より良いカウント数を得ることができるとされる。

プロパティベースの評価　まとめ

・ほとんどのネットワークはシングルカラムネットワークアーキテクチャに基づいており、複雑で肥大化した構造を持つマルチカラムアーキテクチャよりも、シンプルでありながら効果的である。
・視覚的注意メカニズム、拡張畳み込み、空間ピラミッドプーリング（SPP）の技術は、最終的な推定の性能と密度マップの品質を大幅に向上させることができる。
・遠近情報を組み込むことで、マルチスケール特徴の抽出のための追加のサポートとガイダンスを提供できる。
・空間変換ネットワーク、変形畳み込みは、密集したノイズの多いシナリオでの群集理解問題により適している群集の回転と均一分布に対処するのに役立つ。
・汎密度学習は大域的な特徴を最大限に活用できるだけでなく、偏った局所的な推定を補うことも可能。
・マルチパスウェイやマルチタスクのフレームワークを用いた場合には、共同損失関数を用いることで推定性能を向上させ、学習を高速化することが可能である。

Ⅵ．ディスカッション

群衆カウントにおいて考慮すべき点

A) オクルージョン
B) 複雑な背景
C) スケール変動
D) 不均等分布
E) 遠近の歪み
F) 回転
G) 照度の変化
H) 天候の変化

A）オクルージョン

　群集の密度が高くなると、群集は部分的にお互いを覆い隠しているように見えることがある。密度推定モデルが必要となる。

B) 複雑な背景

　背景領域（人物インスタンスを持たない）には、紛らわしいオブジェクトが含まれていたり、前景と類似した外観や色をしていたりする。これはセマンティックセグメンテーションまたは、Visual attention mechanismにより抑制できる。

C) スケール変動

　カメラからの距離に応じて物体のスケールが変化するため、密度推定モデルでは最も主要な問題。そのため、ほとんどすべての密度推定モデルは、第一段階でスケール変動問題に対処するように設計される

D) 不均等分布

　同じシーンでも局所領域の分布に一貫性がない状態。マルチレベル特徴によって生成された複数の密度マップを融合するマルチレベル畳み込みニューラルネットワーク(MLCNN)を提案することによって、この問題に取り組んでいる。この問題はPan-density crowd countingと見なすこともできる。

E) 遠近の歪み

　遠近法の歪みは、カメラの6自由度（DOF）を推定するためのカメラキャリブレーションに関連して、群集計数シーンでの人物スケールのばらつきに大きく影響する。

F) 回転

　異なる姿勢や撮影角度のようなカメラ視点による回転変動の問題が発生する。LSTMフレームワークへの空間変換ネットワーク(STN)の組込みを介して対処される。

G) 照度の変化

　照度は1日の中で太陽の動きに応じて変化する。

H) 天候の変化

　晴天、雲、雨、霧、雷、曇りなど、気象条件は日々変化する。

今後の課題

A) モデル設計
B) データセットの構築
C) 密度マップの質
D) ドメイン適応と転移学習
E) 背景に対するロバスト性
F) 不変性、又は一般化
G) 軽量ネットワーク
H) 画像とビデオの組み合わせ
I) ワイドビューにおける群集の数
J) 物体カウントを超えた局所化・分類・追跡
K) 小さな物体のカウント

A) モデル設計

(1)Ground Truth密度マップの作成
　信頼度の高いCNNベースの密度推定と群集計数モデルを作成するための土台として、高い信頼度のグラウンドトゥルース密度マップの生成が不可欠となる。
　元のラベル（一般的に頭の位置を指す）を持つ画像を密度マップに変換するために、L物体の位置を中心としたガウシアンカーネル（Gaussian kernels）の和を生成し、定義する方法がある。この方法は細胞やバクテリアのような円形の物体の密度分布を特徴づけるのに適している。
スケール変動に対処するために遠近情報を利用した解決策が提案されている。密度マップはガウシアンカーネルにおける頭の部分と二変量正規分布の和で得られるが、この方法は遠近マップの取得という新たな問題を発生させる。これに対して頭部の大きさが隣接する2人の人物間の距離に関係していることが発見されており、この発見に基づいた幾何学的に適応したカーネルベースの密度マップ生成手法が作成した学習データを採用している研究は多く行われている。ただし、このような手法は、密集した群衆シーンでは有効であるが、疎なシーンでは失敗する可能性があるとされている。例えば深度適応カーネルを用いた密度マップ生成法は、実世界では全ての頭部の大きさが同じであると仮定して提案されている。
しかし、上記の手法はいずれも内容を考慮していない。そこで、Chan-Veseセグメンテーションアルゴリズム、2次元ガウスフィルタ、ブルートフォース最近傍探索手法（brute-force nearest neighbor search technique）を統合し、点の分布に関わらず絶対的な最近傍を提供するブルートフォース最近傍探索手法が提案されている。ただし近年では密度マップは、重なり合ったガウスブロブの和によって与えられるため、密な領域では失敗する可能性があると主張されている。そこで、学習スケールモジュール a learning-to-scale module(L2SM)を適用して、密な領域を類似のスケールレベルに再スケールすることで、パターンシフトを改善し、カウント精度を向上させ手法もみられる。別の方法として、点注釈よりも信頼性の高い密度寄与確率モデルを強化するためのベイズ損失を提案する研究者も存在する。密度マップに取って代わる逆kNN an inverse k-nearest neighbor(ikNN)マップを提案している研究者もおり、これは滑らかな訓練勾配と正確な定位を同時に提供することができる。ほかにもグラウンドトゥルースのドットラベルから学習可能な密度マップ表現を生成する適応的密度マップ生成器を提案している。
　いずれにしても、群集カウントのための強固な基礎を築くことが信頼度の高い密度マップ生成のための適切な選択でありるといえる。

(2)損失関数
　損失関数のカスタマイズ設計も効果的なモデルを学習する上で重要な手順である。密度マップの推定 CNNベースの群集計数法はほとんどが回帰処理であり、通常、推定された密度マップとグランドトゥルースとの差を測定するための損失関数としてユークリッド距離を採用している。ただしユークリッド距離損失のみを採用した場合には、外れ値や画像のぼやけに対する感度の低さ、局所的なコヒーレンスを無視した画素独立性の仮定、密度マップの空間的な相関などの欠点がある。そのため、SmoothL1損失やTukey損失が外れ値に対してよりロバストな損失として用いられる。また、この問題に対処し密度マップの品質を向上させるために、敵対的損失が統合される場合もある。それにもかかわらず、密度マップには高レベルの意味情報がほとんど含まれていない場合があるため、ユークリッド損失と組み合わせた軽量なSSIM局所パターン整合性損失は、推定密度マップと基底真理値との間の局所的な構造的類似性を強めるが、固定サイズの領域の局所的整合性にしか対処できない。そのため、さらに拡張マルチスケール構造類似度 a Dilated Multi-scale Structure Similarity(DMS-SSIM)損失を用いて、ネットワークに様々なサイズの領域内の局所的な類似度を学習させ、局所的な整合性を持った密度マップを生成することが試みられている。また、人物の頭部を特定のスケールに特化させるために、スケールを考慮した新しい損失関数を用いることもある。さらに、空間抽象化損失(SAL)と空間相関損失(SCL)を組み合わせて密度マップの品質を向上させる方法が提案されている。別の方法としては、密度の空間的変動を考慮して、ピクセルレベルのサブ領域を最適化するMaximum Excess over Pixels (MEP)損失が提案されている。
　総じていえることは、適切な損失関数を設計することで、モデルの性能を確実に向上させることができるということである。

(3)複数の手がかりとなる情報の統合
　一般的に、複数の手掛かりとなる情報を統合させることはアルゴリズムの性能を大幅に向上させることができるとされている。例えば、スケールアウェアとコンテキストアウェアの統合や、疎なシナリオと密なシナリオのための異なる経路の組み合わせなどがあげられる。ほかにも幾何学的／意味的／数値的属性などの異種属性が、群集計数の密度推定を支援するために活用されているケースもある。
　多くの異なるデータソースや様々なフォーマットのモダリティにまたがって、豊富なデータが利用可能であり、これらの現在用いている主たる情報とはことなる手掛かりを「広義の学習」と統合させることは、今後の信頼できる研究への方向性へとなりうる可能性がある。

(4)ネットワークトポロジー
　ネットワークトポロジーはネットワーク内の情報の流れを表すものである。主にトレーニングの複雑さと必要なパラメータに影響を与える。群集カウントタスクではエンコーダ-デコーダパイプラインが多くの実験で証明されているように、高性能を発揮している。（例えば、CSRNetは標準的なエンコーダ-デコーダ構造を採用しており、事前に学習されたVGG16をバックボーンとして使用し、デコーダでは拡張畳み込み演算を構築している。SA-Netは、エンコーダにInceptionモデルを、デコーダにTransposed convolution層を使用した同様のモデルを構築している。W-Netは，エンコーダブロックをVGG16に置き換えたU-Netの構造を直接利用し、より高速に収束するために分岐を追加している。TEDnet は、エンコーダ-デコーダ階層をトレリス方式で展開している。SGANetは、群集カウントのためのInception-v3の有効性を調査している。）
　なおVGG16bn、Resnet50、Inceptionの中では、エンコーダー・デコーダーパイプライン利用の枠組みを超えて、VGG16が特徴抽出に最適なバックボーンとなっている。

B) データセットの構築

(1)状況の多様性
　データセットは現実の多様性に対応して一定程度複雑なものが求められる。初期にはUCSD やMallのように、異なる画像間で遠近感にばらつきのない、同じビデオシーケンスの画像を使用した群集カウントのためのデータセットが作成された。現在はディープラーニングのためのシーン横断的で多様なデータの必要性を満たすために、UCF CC 50 、SHT A 、UCF QNRF、などほかにも無数のより難度の高いデータセットが提案されている。ただし、これらのデータセットは問題を抱えている。（例えばUCF CC 50は高解像度の群集画像の数が少ないために生成能力が制限されており、SHT Aは不均一な密度レベルと一部のサンプルの不正確なラベルに悩まされている。UCF QNRFは、UCF CC 50よりも高密度な群集画像とアノテーションの数が多くその意味ではUCF CC 50よりも有意であるが、クラス内のばらつきがネットワークの処理能力を超えてしまう場合がある。それでも現実に応用した場合は、天候の変化や照度の変化などがデータセットにない極端なケースであっても対処できる可能性がある。GCCは、より多様なシーンで構成された大規模な合成群集計数を構築している。そのため現実世界での課題をよりよく模倣することができ、合理的な解決策を提供する可能性がある。ただしGCCには多くのデータがあるにもかかわらず、合成データと実データの間には大きな「ドメインギャップ」が存在する。）

(2)マルチビュー
　公共の公園や駅での長蛇の列など、単一視点では対応できない状況がある。単一のカメラでは捕捉しきれないほどの広さをもつシーン、カメラからあまりにも遠く離れた場所（解像度が低い）、群衆の大部分が物体に遮られていたりする場合などである。その場合には複数視点（マルチビュー）を含むデータセットを必要する。例えば、市街データセットCity street dataset は、交通量の多い交差点から収集されたもので、より複雑なオクルージョンパターンと大きなスケールの変化を持つ広い範囲の群衆を含んでいる。
(3)アノテーションの精度
　既存の密な群集カウントデータセットには欠点があり、UCF CC 50 や上海工大Part A のいくつかのサンプルでは、アノテーションがあまり正確ではない。異なる作業者によってアノテーションされたデータや、異なる基準に従ったデータにおいては避けられない問題であり、改善されたデータセットが求められる。
(4)アノテーションツール
　実世界の課題をより忠実に反映できるような、シーン横断的、多視点的、正確なアノテーションを施したデータセットを構築することは、群集カウントの一般化能力を高めるために不可欠である。さらに、効果的なアノテーションツールはデータセットの構築に不可欠である。そのため、NWPU-Crowdと呼ばれる大規模なデータセットを構築したHTML5 + Javascript + Pythonをベースにしたオンラインの効率的なアノテーションツールの使用が強く推奨される。このツールでは、アノテーションの過程で、画像は適応的にズームイン/ズームアウトされ、異なるスケールに応じて頭部をアノテーションし、それぞれが16×16ブロックに分割され、アノテータに5つのスケール、具体的には2（i）（i = 0, 1, 2, 3, 4）倍のサイズを提供することとなる。このアノテーションツールは、アノテーションの速度と品質を効果的に向上させることができる。
より詳細な説明　 https://www.youtube.com/ watch?v=U4Vc6bOPxm0/
より詳細な結果　 https://www.crowdbenchmark.com/nwpucrowd.html
コード　 https://github.com/gjy3035/ NWPU-Crowd-Sample-Code 　

C) 密度マップの質

　密度マップの品質は性能に影響を与える重要な要素であるが、既存手法はカウント精度に注目している場合がほとんどだった。Sindagi は初めてこの問題に着目しより明確で高品質な密度マップを得るために、ユークリッド損失と敵対的損失（adversarial loss）を併用しながら大域的なコンテキストを18の学習過程に組み込むことを提案した。

　密度マップの品質を、PSNRとSSIMの２軸で比較。
　表から、SSIM Embedding CycleGANが最も悪い性能を示していることがわかる。なおこれは合成データと実世界のデータとの間の “ドメインギャップ “に起因するものと思われる。

D) ドメイン適応と転移学習

　学習モデルを未見のシーン利用すると、予測不可能なドメインギャップのため、最適な結果が得られないことがある。NWPU-Crowdモデルの上海パートAとOracle errorと比較して、平均MAEが44.6%増加し、RMSEが47.0%増加するなど、明らかな性能低下が見られる。性能低下の主な理由は、密度範囲や画像スタイルなど、多くのドメインギャップ/シフトが存在することにある。ドメインギャップを改善するためには、ドメイン適応の手法が有用であり、多様なドメイン間で有効な特徴量を移動させることで省人化を実現することができる。GANベースの手法がこの問題に重要な影響がある。例えば、SSIM Embedding CycleGANは、従来のサイクルGANフレームワークに構造的類似度指数(SSIM)を組み込み、合成データと実世界のデータの間のドメインギャップを補うことで、ドメイン適応技術を利用している。

E) 背景に対するロバスト性（頑強性）

　ロバストなカウントモデルは、群集密度を正確に推定するだけでなく、バックグラウンド領域のゼロ密度応答を生成する。モデルのロバスト性を評価するために、近年の大規模データセットであるJHU-CROWD は100個のDistractorを、NWPU-Crowd は351個のネガティブサンプルをそれぞれ独自に導入している。これらの追加データには人物や群衆領域は含まれておらず、NWPU-CROWD ではカウントモデルを混乱させるために、他のオブジェクトが密集しているシーンを意図的に収集していることに注意が必要となる。表はJHU-CROWDのDistractorとNWPUCrowd のNegative Sampleの推定誤差（MAE/RMSE）をリストアップしたものである。結果から、現在のモデルはこれらのサンプルの密度を誤って推定していることがわかる。軽いモデルでは、PCC-Netは多くのVGGバックボーン法（CSRNet、C3FVGG、SCAR）よりも優れた性能を発揮する。その主な理由は、PCC-Netが前景（すなわち頭部）と背景を分類するためにセグメンテーション情報を組み込んでいることにあると思われる。そのため、マルチタスク学習（パッチレベルカウント、セグメンテーション、グループ検出など）を用いて大域の特徴を抽出する方法も有力であると考えられる。

F) 不変性、又は一般化

　既存の物体計数モデルのほぼ全ては特定のタスク用に設計されているが、どのようなクラスの物体にも適応できる普遍的なモデルを作成することは有意義な課題であり、アルゴリズムのロバスト性や一般化能力を評価する上で最も効果的な方法でもある。異なるタスク間には専門性があるにもかかわらず、群集カウント、車両カウント、セルカウントなど、多くの共通点が存在する。例えば、CACは、画像間の自己相似性をマイニングすることでマッチングオブジェクトとしてカウントを定式化し、クラスにとらわれない方法で汎用マッチングネットワーク(GMN)を提示している。ほかにもPPPD は、ドメイン固有のスケーリングと正規化レイヤのセットを利用することで、パッチベースのマルチドメインオブジェクト計数ネットワークを提供しており、これは少数のパラメータを使用するだけである。また、目に見えない観察されたドメインでも視覚的なドメイン分類を実行するように拡張することができ、その汎用性とモジュール性が際立っている。この手法は、人間、ペンギン、細胞の計数などへの応用に成功している。統一された原理（ガウス関数を用いたグランドトゥルース密度マップの生成などが好例）と異なるタスクにも適用可能なフレームワークを設計することが、今後の研究の方向性としては有望であると思われる。

G) 軽量ネットワーク

　現在のCNNベースのディープモデルは洗練された構造で設計されているが、それには常に数百万のパラメータが必要であり、計算量（FLOPs）の大幅な増加というコストがかかる。モデルの効率化にはCSRNetやSCNetなどにみられるように多大な努力が払われてきた。しかし通常は分類用の大規模なデータセットであるImagenet上で事前学習されたVGG16やResNetを採用することで効率化をめざしているが、オブジェクトカウントのタスクは回帰タスクに属するため、転移学習は一定程度性能に影響を与える可能性がある。さらに、転移学習は非常に時間のかかるプロセスでもある。
　一般的に、ネットワークが軽量であるかどうかを判断する最もわかりやすい方法は、パラメータの数であり、パラメータの数が少ないほどモデルは軽量である。表は、いくつかの代表的なモデルにおけるパラメータ数の比較を示している。表から、LCNNが最もパラメータ数が少なく、最悪のモデルであるCPCNNよりも2138×近く低いことがわかります。これは、LCNN が事前学習を行わない浅いネットワークであることに起因していると考えられる。パラメータ数が少なく、モデルの効率が良いことが証明されている。
　軽量ネットワークは計算コストを削減できるが，通常は精度の低下を伴う。したがって、精度を犠牲にしないことを前提に、軽量で効率的なネットワークを設計して計算コストを削減することは今後の有望な課題であるといえる。

H) 画像と動画の組み合わせ

　カウントのための現代の主流モデルは、画像もしくは動画のどちらかに対してのみ展開されている。ビデオシーケンスが利用可能な場合、時間的一貫性を利用して連続密度推定に弱い制約を課すアルゴリズムがいくつか提案されている。例えば、あるフレームから次のフレームまでの密度を推定するためにLSTMモデルを利用する方法が提唱されている。またある研究者は移動する際に人の数が厳密に保存されなければならないという条件を掲げ、連続密度推定への制約を明示的に強制している。
　ただし、こうした動画によって得ることができる画像の連続性による数の制約を、画像に対する密度推定性能の向上に反映できているとはいいがたい。したがって、画像と動画を同時に扱うことができる効果的なアルゴリズムを設計することは、意味のある有望な方向性であるといえる。

I) ワイドビューにおける群集の数

　単視点画像での群集カウントは優れた性能が得られているものの、公園や地下鉄のホームなどの大きくて広いシーンには単視点カメラでは十分な詳細情報を捉えることができないため適用できない。そのため、広域シーンに対するカウントの問題に対処するために、複数のカメラビューから情報を取得してカウントする試みが行われてきた。例えば、地上平面上の2Dシーンレベルの密度マップを予測するためのマルチビュー・マルチスケール（MVMS）融合モデルが提案されている。さらに、３次元シーンレベルの密度マップと３次元特徴量の融合を用いることで広域シーンのカウントを実現している。3Dフュージョンは2Dフュージョンと比較して、2D密度マップの特性を保持するだけでなく、z次元（高さ）に沿った群集密度のより有用な情報を抽出することができる。ただし、これらのモデルは、カメラが固定されカメラパラメータが既知であることを前提としているため、カメラが移動してカメラパラメータが未知である場合の横断シーンや多視点の計数モデルの設計は、今後の課題である。

J) 物体カウントを超えた局所化・分類・追跡

　群集カウントのための密度推定CNNベースのモデル（実際は回帰ベースの手法）は正確なカウント数は提供するが、正確な位置や物体の正確な大きさを示すものではない。そのため、高レベルの理解、定位、分類、追跡などのさらなる研究や応用には限界がある可能性がある。例えば、DecideNetでは，群集密度を推定するために検出と回帰ベースの密度マップを別々に生成し、最終的なカウントを誘導するために注目モジュールを組み込んでいる。しかし、このモデルはバウンディングボックスのアノテーションを用いて完全教師付きネットワークを学習するため、計算コストが大きくかかる。CLは、合成損失を導入することで、密度と局在マップを同時に回帰させる。LCFCNは、画像中のオブジェクトブロブをセグメンテーションすることで群集数を推定するが、これはポイントアノテーションのみを用いる。CLやLCFCNは単に群集の定位に着目したものであるが、PSDNは定位の予測だけでなく、人物の大きさも推定する。LSF-CNNは、群集内のすべての人物の位置を特定し、ドットアノテーションされた頭のサイズをバウンディングボックスで決定し、最終的にカウントする。

K) 小さな物体のカウント

　非常に混雑した群衆のシーンでは、人の頭のサイズは非常に小さい。リモートセンシング画像の中の連続した密集した建物、船、小型車両、その他数え切れないほどの物体の数をカウントすることも、他のアプリケーションの可能性として考えられる。リモートセンシングシーンでの物体計数と自然界のシーンでの物体カウント間での明らかな違いは、直立した視点ではなく俯瞰した視点のため、物体の向きが任意であることである。

まとめ

・本論文では、CNNベースの密度推定と群集計数モデルについて、ネットワークアーキテクチャ、学習パラダイムなどの観点から調査を行った。
・群集計数や他分野の代表的なデータを含む一般的なベンチマークデータセットと、様々な手法を評価するための評価基準をまとめた。また、代表的なモデルの性能ベンチマーク評価も行った。
・これらの代表的な手法を包括的かつ徹底的に分析することで、上位3位までの論文を選出し、性能向上のために役立つ属性や技術をまとめた。また、群集計数の性能に影響を与えるいくつかの要因を調査した。