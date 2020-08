Sendedatum: 03.08.2020 12:00 Uhr

FAQ: So führt der NDR seine Corona-Berechnungen durch

Es gab in der Geschichte der Bundesrepublik wohl noch nie ein Thema, bei dem sich die breite Öffentlichkeit so stark und so ausdauernd für Daten-Visualisierungen interessiert hat: Der Verlauf der Corona-Pandemie lässt sich fast tagesaktuell vermessen und visuell aufbereiten. Gleichwohl gibt es einige Einschränkungen in der Aussagekraft der Daten - bei der Analyse der Zahlen müssen sie berücksichtigt werden. Und wenn das Risiko besteht, dass bestimmte Daten die Realität verzerrt spiegeln, sollte auf die Veröffentlichung von Kennwerten unter Umständen verzichtet werden.

NDR Data liefert täglich verschiedene Grafiken zum Verlauf der Corona-Pandemie in Norddeutschland, um die Daten für die Öffentlichkeit verständlich zu präsentieren. Welche Schwierigkeiten gibt es bei der Daten-Auswertung? Welche Berechnungen liegen hinter den Grafiken? Und was muss bei ihrer Interpretation beachtet werden? Die wichtigsten Fragen und Antworten.

Woher stammen die Corona-Daten?

Die Corona-Daten, die das Daten-Team des NDR verwendet, stammen vom Robert Koch-Institut (RKI). Das bundeseigene Institut für Infektionskrankheiten sitzt am Ende einer behördlichen Meldekette: Sie beginnt bei den Gesundheitsämtern in den 401 Kreisen und kreisfreien Städten, nimmt ihren Weg über die Landesgesundheitsämter und endet beim Robert Koch-Institut, das die täglichen Fallzahlen gesammelt bereitstellt. Beim RKI laufen also sämtliche meldepflichtigen Neuinfektionen mit dem Coronavirus aus ganz Deutschland zusammen. Für die Interpretation der Grafiken auf NDR.de ist also zu beachten, dass sie nicht das tatsächliche Infektionsgeschehen darstellen können, sondern ausschließlich auf Daten der gemeldeten Fälle beruhen.

Wie aktuell sind die Corona-Daten?

In einer Situation, die so einschneidend ist wie die Corona-Pandemie, ist der Wunsch nach Aktualität groß. Jedoch können gerade die jüngsten Corona-Fallzahlen, die das Robert Koch-Institut bereitstellt, noch unvollständig sein. Grund dafür ist ein zeitlicher Verzug in der Meldekette. Neu erfasste Corona-Infektionsfälle bleiben bei den Gesundheitsämtern wegen aktuellen Aufkommens teilweise schlichtweg liegen - besonders an den Wochenenden. Die Daten gelangen dann erst mit Verzögerung zum RKI. Dort werden die Zahlen allerdings wieder den entsprechenden Vortagen zugeschlagen, zu denen sie gehören. So kann es mehrere Tage dauern, bis die Fallzahlen für in der Vergangenheit liegende Tage vollständig sind.

Aus diesem Grund nutzt der NDR die Werte der jüngsten zwei Tage nicht für alle Berechnungen. In vielen Diagrammen - etwa in Darstellungen des rollierenden 7-Tage-Mittels - werden sie ausgeblendet. Die unvollständigen Daten würden sonst möglicherweise den Eindruck erwecken, dass die Zahl der Neuinfektionen zurückgeht, obwohl das nur an den unvsollständigen Daten liegt und nicht am tasächlichen Verlauf der Pandemie. NDR.de weist in einer täglichen Grafik daher immer einen Vergleichswert in Prozent aus, der sich auf den Wert von vor drei Tagen bezieht. Überschlagsrechnungen haben ergeben, dass nach diesem Zeitraum ein Großteil der Nachmeldungen beim RKI eingetroffen ist.

Wie werden Ausreißer in den Daten berücksichtigt?

Nicht nur der Meldeverzug bereitet Probleme bei Analysen. Auch der Umstand, dass an Wochenenden weniger getestet und ausgewertet wird, führt dazu, dass die Daten einem Wochenrhythmus unterliegen. Um diese Schwankungen zu harmonisieren, berechnet der NDR ein 7-Tage-Mittel, den Durchschnittswert der jeweiligen Woche. Führt man diese Berechnung für jeden Tag seit Pandemiebeginn durch - Statistikerinnen sprechen von einem rollierenden Mittelwert - lässt sich dieser harmonisierte Verlauf als Liniendiagramm darstellen und ermöglicht einen Blick auf den Pandemie-Verlauf, der nicht von starken organisatorisch begründeten Ausreißern verzerrt wird.

Auf Grundlage des 7-Tage-Mittels gibt der NDR auch den täglichen Vergleichswert in Prozent [s.o.] aus: Dieser Wert zeigt die Veränderung zum 7-Tage-Mittel der Vorwoche, vergleicht also den aktuellsten Wochenwert mit dem der Vorwoche. Dabei ist eine weitere Einschränkung zu beachten: Der NDR nimmt die jüngsten zwei Tage des 7-Tage-Mittels aus der Berechnung heraus, da diese Tage noch vom Meldeverzug betroffen und damit in der Regel noch äußerst unvollständig sind.

Mehr Corona-Tests = höhere Fallzahlen?

Folgt eine Zunahme der durchgeführten Corona-Tests auch zu einem Anstieg der gemeldeten Neuinfektionen? Und müsste die Zahl der durchgeführten Test dann nicht im Umkehrschluss in die Fallzahl-Berechnung mit einbezogen werden? Fragen wie diese erreichen den NDR immer wieder.

Kollegen des Bayerischen Rundfunks sind dieser Frage nachgegangen und haben für ihre Recherchen auch das RKI mit der Fragestellung konfrontiert. Nach dessen Aussage sind höhere Fallzahlen bei mehr durchgeführten Tests natürlich möglich: "Eine Ausweitung der Testindikationen oder eine Erhöhung der Testzahl kann zu einem Anstieg der Fallzahlen führen, da zuvor unentdeckte Fälle detektiert werden." Allerdings seien steigende Fallzahlen nicht unbedingt allein auf mehr getestete Personen zurückzuführen, so das RKI auf BR24-Anfrage. Als alleinige Erklärung für mehr Neuinfektionen könnte ein erhöhtes Testaufkommen also sogar einen falschen Eindruck vermitteln.

Wäre die Zusammenführung von Test- und Fallzahlen also durchaus sinnvoll, ist eine valide Berechnung derzeit allerdings nicht möglich: Die Zahl der durchgeführten Tests basiert lediglich auf freiwilligen Schätzungen der Labore - die Zahl der Neuinfektionen hingegen sind Pflichtmeldungen. Zudem wird die Zahl der Tests derzeit nur auf Bundesebene gesammelt und nicht nach Bundesländern oder gar Landkreisen aufgeschlüsselt. Insbesondere eine regionalisierte Berechnung von Fallzahlen mit Bezug zu der Anzahl durchgeführter Tests ist daher ausgeschlossen.

Was zeigt die Trendlinie?

Da der Meldeverzug die Tageswerte der jüngsten zwei Tage unbrauchbar macht, bietet die im folgenden Diagramm verwendete Trendlinie einen Kompromiss zwischen dem Wunsch nach größtmöglicher Aktualität - dem jeweiligen Tageswert des Vortags - und den Unsicherheiten, die durch fehlende Daten entstehen.

Die Trendlinie entsteht durch ein "Locally Estimated Scatterplot Smoothing" - zu Deutsch: "Regional geschätztes Punktwolken-Glätten". Dabei werden die täglich gemeldeten Neuinfektions-Zahlen in mehrere Zeitabschnitte untergliedert und für jeden dieser Abschnitte ein eigener Wert berechnet, der sich bestmöglich bei den benachbarten Werten einfügt. Durch dieses Verfahren entsteht eine von um Ausreißer bereinigte Trendlinie, die noch glatter als das 7-Tage-Mittel verläuft und eher einem 14- bis 21-Tage-Mittel ähnelt . Das liegt daran, dass sie mehr als sieben Tageswerte für die Berechnung nutzt.

Ob der Trend nach oben oder nach unten zeigt, hängt bei der Trendlinie also von deutlich mehr Werten ab als beim 7-Tage-Mittel. So bietet die Trendlinie - trotz des Meldeverzeugs - einen Eindruck davon, wie sich der Pandemie-Verlauf bis zum Vortag entwickelt hat. Wenngleich ein Trend natürlich keine Gewissheit, sondern maximal eine Einschätzung bietet.

Inzidenzwert für Vergleiche von Bundesländern oder Landkreisen

Für einen Vergleich der Anzahl der Corona-Neuinfektionen zwischen den Bundesländern oder auch den Landkreisen in Norddeutschland muss man die Zahl der Neuinfektionen pro Einwohner berechnen. Als gängiges Maß hat sich hier die Einheit "Erkrankungen pro 100.000 Einwohner" durchgesetzt. Diese wird von Epidemiologen auch als Inzidenz bezeichnet.

Risikowert: Wie kommt die Karte mit der 50er-Marke zustande?

Die 50er-Grenze ist ein von Bund und Ländern festgelegter Risiko-Schwellenwert für die Anzahl potenziell ansteckender Infizierter in einer Region. Wird die Schwelle von 50 Neuinfektionen je 100.000 Einwohner innerhalb von sieben Tagen in einem Landkreis oder einer kreisfreien Stadt überschritten, muss die Politik handeln und Maßnahmen zur Pandemie-Bekämpfung verschärfen. Die Karte zeigt daher für jeden Kreis die Summe der Neuinfektionen der letzten sieben Tage. So lässt sich erkennen, wie weit das Infektionsgeschehen in den einzelnen Kreisen von der 50er-Grenze entfernt ist.

Haben Sie Fragen und Anregungen? Schreiben Sie uns an data@ndr.de.

