Prognose der Covid19-Neuinfektionen durch Analyse von Google und Twitter

Die offiziellen Statistiken zu Covid-19-Neuinfektionen in Deutschland sind lückenhaft und sehr langsam. Google und Twitter-Daten helfen, die Zahlen früher und mitunter sogar besser vorherzusagen

Von Bernd Skiera, Lukas Jürgensmeier (beide Goethe-Unversität Frankfurt), Kevin Stowe und Iryna Gurevych (beide TU Darmstadt)

Covid-19 bringt viele offensichtliche Probleme mit sich. Viele widmen sich den enormen medizinischen, gesellschaftlichen und ökonomischen Herausforderungen. Wir widmen uns einem anderen Problem: Wie gut sind die offiziellen Daten, die in Deutschland durch das Robert Koch Institut bereitgestellt werden, und sollten diese offiziellen Daten durch andere Datenquellen ergänzt werden? Wir halten diese Fragestellung für ausgesprochen wichtig, weil die Politik ihre Entscheidungen mit weitreichenden ökonomischen und gesellschaftlichen Auswirkungen ganz entscheidend auf diesen offiziellen Daten aufbaut.

In unserem Forschungsprojekt untersuchen wir als Team von Wirtschaftswissenschaftlern und Informatikern der Universitäten Frankfurt und Darmstadt die Qualität der offiziellen Daten und vergleichen, wie gut alternative Datenquellen wie die viel zitierten Zahlen der Johns Hopkins Universität, aber auch Suchanfragen bei Google und Tweets bei Twitter, die offiziellen Daten ergänzen können.

Die wichtigsten Ergebnisse unserer Studie sind:

  • Am Wochenende unterschätzen die offiziellen Zahlen des Robert Koch Instituts die Anzahl der Neuinfektionen von COVID-19 um etwa 40%.
  • Die vom Robert Koch Institut berichteten täglichen Fallzahlen werden über Tage hinweg deutlich nach oben korrigiert. So sind zum Beispiel bei Abruf der Zahlen am 5. April knapp 70% der neuen Fälle des 3. Aprils nachgemeldet worden. Werden also heute die gestrigen Neuinfektionen gemeldet, so werden diese morgen häufig noch einmal mehr als verdoppelt.
  • Die täglich gemeldeten Neuinfektionen der Johns Hopkins Universität für Deutschland weichen im Durchschnitt um 79% von den offiziellen Zahlen des Robert Koch Instituts ab.
  • Die Nutzung einer einfachen Regression zur Anpassung der Prognose der Johns Hopkins Universität führt dazu, dass der durchschnittliche Prognosefehler auf 35% gesenkt werden kann.
  • Die Anzahl der Coronavirus-bezogenen Suchanfragen bei Google sowie Tweets bei Twitter sagt die offizielle Anzahl der täglichen Neuinfektionen von COVID-19 in Deutschland drei Tage früher und besser voraus als die Angaben der Johns Hopkins Universität.

Wir argumentieren deshalb, dass Google, Twitter und potenziell andere alternative Datenquellen die offiziellen Zahlen zu den Angaben der Neuinfektionen mit COVID-19 ergänzen sollten. Damit könnten datenbasierte politische Entscheidungen früher und unter Umständen verlässlicherer getroffen werden. Unsere Studie konzentriert sich nur auf die deutschen Daten und liefert schon dort relativ erfolgsversprechende Ergebnisse. Das Beispiel Deutschland zeigt, dass es aber auch in hochentwickelten Ländern erhebliche Messprobleme gibt. Doch ein noch größerer Nutzen dieser alternativen Daten könnte sich besonders dort zeigen, wo staatliche Institutionen als nicht verlässlich wahrgenommen werden oder schlicht die Ressourcen für eine akkurate Erfassung fehlen. In solchen Ländern könnten Google, Twitter oder sonstige Social-Media-Daten Ausbrüche schneller und akkurater erfassen und somit zu einer besseren Bekämpfung von COVID-19 beitragen.

Link zur Studie

Kommentare

×

Name ist erforderlich!

Geben Sie einen gültigen Namen ein

Gültige E-Mail ist erforderlich!

Gib eine gültige E-Mail Adresse ein

Kommentar ist erforderlich!

* Diese Felder sind erforderlich.

Sei der erste der kommentiert