現在中国ではコロナ感染者数が公表されていないため、どれくらい蔓延しているのか把握することは困難です。
ただ、いくつかの企業や個人が感染者数やピーク予測を公表しており、ある程度の状況は知ることが出来ます。具体的にどのように感染者数を予測しているのか調べてみました。
都市別感染者数予測ツール
コロナ感染者数予測で一番よく使われているのは「城市数据库」の「感染预测数据」です。※Wechatで「城市数据库」で検索
上海市の感染予測曲線を見ると
- 12月21日は、1日117.91万人(人口の4.74%)が感染
- ゼロコロナ終了から12月21日まで累計25.52%の人が感染済み
- 今回のコロナのピークは12月24日で、1月28日に収束する
私の会社の社員はまだ1人しか感染していませんが、周りの状況を見ると結構正確に予測できている気がします。
▼北京
北京は感染のピークを越え、既に46.91%が感染済みとの予測。
▼上海周辺都市の状況
南京などの都市は既にピークを越えたとの予測。
ビックデータを用いたコロナ感染予測
この予測を実際にどのように計算しているのか調べてみます。
「知乎」の作者のページに記載があります。
概要は下記の通り
検索数を用いたピーク予測
1.中国外での分析(Googleでの「発熱」ワード検索数)
台湾・香港・日本でGoogleでの「发烧(発熱)」の検索数の増加割合とコロナ感染者数のピークとの関連性解析
※「発熱」のワードでネット検索する人は一定割合で実際に発熱している。コロナ前と比較して「「発熱」ワード検索の増加割合」=「コロナ感染者数の増減」として判断
→3地域とも、検索数増加割合の累計が同じ閾値を超えた際にコロナ感染がピークだった。
2.中国国内での検証(百度での「発熱」ワード検索数)
百度でも同じ方法・数値を使ってピーク予想が使えるか検証
→中国国内で感染拡大が先に進んでいる石家庄・邢台・保定の3都市を使って検証。その結果1.のGoogle検索累計よりも保守的に閾値を設定
3.中国国内の各都市の予測
都市毎の百度での「发烧(発熱)」検索数及び2.で検証した閾値から、各都市の感染者数やピーク予測を作成
「发烧」ワードの検索数だけで感染者を予測するというシンプルな作りです。
ここまでは、リリース最初期(12月10日)の予測モデル。その後、このプログラムは日々更新されています。
- 閾値の設定を台湾・香港・日本に合わせる形へ
- 人口50万人以下の都市は検索ボリュームが小さすぎて正しく判断できないので予測から削除
- 「发烧」の検索ワードだけでは、正しく判断出来なくなったので予測ワードを変更(現在は非公開)
等など。
まとめ
中国各都市のコロナ感染者数やピークをどのように予測しているのか調べてみました。
「コロナ前と比較して「発熱」関連の検索数がどれだけ増えているのか」を使うシンプルな方法ですが、意外と正確に分析できそうです。