中国各都市のコロナ感染者数・ピーク予測~ビックデータ解析

現在中国ではコロナ感染者数が公表されていないため、どれくらい蔓延しているのか把握することは困難です。

ただ、いくつかの企業や個人が感染者数やピーク予測を公表しており、ある程度の状況は知ることが出来ます。具体的にどのように感染者数を予測しているのか調べてみました。

都市別感染者数予測ツール

コロナ感染者数予測で一番よく使われているのは「城市数据库」の「感染预测数据」です。※Wechatで「城市数据库」で検索

上海市の感染予測曲線を見ると

  • 12月21日は、1日117.91万人(人口の4.74%)が感染
  • ゼロコロナ終了から12月21日まで累計25.52%の人が感染済み
  • 今回のコロナのピークは12月24日で、1月28日に収束する

私の会社の社員はまだ1人しか感染していませんが、周りの状況を見ると結構正確に予測できている気がします。

▼北京

北京は感染のピークを越え、既に46.91%が感染済みとの予測。

▼上海周辺都市の状況

南京などの都市は既にピークを越えたとの予測。

ビックデータを用いたコロナ感染予測

この予測を実際にどのように計算しているのか調べてみます。

「知乎」の作者のページに記載があります。

zhuanlan.zhihu.com

概要は下記の通り

検索数を用いたピーク予測

1.中国外での分析(Googleでの「発熱」ワード検索数)

台湾・香港・日本でGoogleでの「发烧(発熱)」の検索数の増加割合とコロナ感染者数のピークとの関連性解析

※「発熱」のワードでネット検索する人は一定割合で実際に発熱している。コロナ前と比較して「「発熱」ワード検索の増加割合」=「コロナ感染者数の増減」として判断

→3地域とも、検索数増加割合の累計が同じ閾値を超えた際にコロナ感染がピークだった。

2.中国国内での検証(百度での「発熱」ワード検索数)

百度でも同じ方法・数値を使ってピーク予想が使えるか検証

→中国国内で感染拡大が先に進んでいる石家庄・邢台・保定の3都市を使って検証。その結果1.のGoogle検索累計よりも保守的に閾値を設定

3.中国国内の各都市の予測

都市毎の百度での「发烧(発熱)」検索数及び2.で検証した閾値から、各都市の感染者数やピーク予測を作成

「发烧」ワードの検索数だけで感染者を予測するというシンプルな作りです。

ここまでは、リリース最初期(12月10日)の予測モデル。その後、このプログラムは日々更新されています。

  • 閾値の設定を台湾・香港・日本に合わせる形へ
  • 人口50万人以下の都市は検索ボリュームが小さすぎて正しく判断できないので予測から削除
  • 「发烧」の検索ワードだけでは、正しく判断出来なくなったので予測ワードを変更(現在は非公開)

等など。

まとめ

中国各都市のコロナ感染者数やピークをどのように予測しているのか調べてみました。

「コロナ前と比較して「発熱」関連の検索数がどれだけ増えているのか」を使うシンプルな方法ですが、意外と正確に分析できそうです。