Ulfs Blog

20.5.2020, 19:30

Näherungen

Ulfs Blog

Zu den veröffentlichten Zahlen haben sich sehr viele Menschen Gedanken gemacht und mit Statistikprogrammen, Excel und ähnlicher Software Kurven gemalt. Üblicherweise wird dabei auf eines der SI-Modelle zurückgegriffen (am Anfang gab es noch Excel-Cheats mit Exponentialfunktionen). Drei Beispiele sind mir aufgefallen:

  1. Pavel Mayer am 18. April auf Twitter – empfohlen von Fefe
  2. Artikel »Ode an Corona« von Pina Merkert in der c't 11/2020 Seiten 124ff vom 28. April (bei heise.de mit Bezahlschranke)
  3. Helmut Zecha vom 19. Mai auf Telepolis

Es scheint, dass Mayer ursprünglich das SIRD-Modell zugrunde legt, immerhin zeigt er einen Graphen mit den Verstorbenen. Merkert verwendet das SEIR-Modell, bei dem die Infizierten I des SIR-Modells aufgeteilt werden in Angesteckte E (exposed) und Ansteckende I. Zecha verwendet eine krude Aneinanderkettung von Potenzfunktionen.

Sinusfunktionen

Mayer erkennt in den Eingangsdaten Schwankungen und führt eine Fourieranalyse durch, um auf eine Periode von sieben Tagen zu kommen. Sorry, aber das ist mit Kanonen auf Spatzen geschossen. Diese Periode hätte jeder andere sofort gesehen, wenn er sich die damaligen Meldezahlen des RKI angeschaut hätte.

Danach überlagert er die Ergebnisfunktion seines SI-Modells mit einer passenden Sinusfunktion. Sorry, aber das ist Voodoo. Die Aussage dieser Kurven ist gleich null. Die Auswahl des Sinus-»Brummens« ist auch relativ willkürlich. Da gäbe es noch bessere Funktionen, die den Rhythmus Wochenende – Wertage besser beschreiben.

SEIR Modell und Wahrscheinlichkeiten

Beim Artikel von Merkert bin ich stutzig geworden. Die Differentialgleichungen des SEIR-Modells gleichen denen des SIR-Modells, wobei es eben noch einen weiteren Proportionalitätsfaktor gibt, mit denen Angesteckte ansteckend werden (in der Wikipedia mit a bezeichnet). Merkert erklärt nun die Bedeutung dieser Parameter.

Die Gleichungen multiplizieren jeweils die Wahrscheinlichkeit, dass ein Mensch aus einer Gruppe in die nächste wechselt, mit der Anzahl der Personen, die den Wechsel auslösen können. Für den Wechsel von E nach I gilt für die Personenzahl beispielsweise EP(EI). Wie also berechnet man die Wahrscheinlichkeit P(EI)? Statistiken aus Wuhan belegen, dass Tinc, die durchschnittliche Inkubationszeit, 5,2 Tage beträgt. Außerdem ist die Annahme sinnvoll, dass sich die Zeitpunkte für Infektionen gleichmäßig verteilen. Egal, wie die tatsächliche Verteilung aussieht, erstreckt sie sich auf jeden Fall über einen weit längeren Zeitraum als 5,2 Tage. Nach 5,2 Tagen haben auch nach dieser Annahme im Schnitt also gerade 100 Prozent der Infizierten Symptome ausgebildet. Nach nur einem Tag haben demnach erst 1/5,2 Personen Symptome. Das heißt, für kontinuierlich verteilte Ansteckungszeitpunkte ist P(EI)1/5,2=1/Tinc.

— Hervorhebungen durch mich

Sorry, aber das ist wirr.

Zunächst bezeichnet die Inkubationszeit die Zeit zwischen Ansteckung und Ausbruch der Krankheit. Infektiös wird man – gerade bei Corona-SARS-2 – aber schon vor den Symptomen. Die Zeit von der Ansteckung zum ansteckend werden wird bei der Wikipedia Latenzzeit genannt und ist deshalb kürzer. Die Inkubationszeit ist übrigens die Zeit, die man von den Meldedaten des RKI mit Nowcast noch zurückrechnen muss, um auf den Zeitpunkt der Infektion zu kommen, weil das RKI in den Nowcast-Zahlen das Datum des Krankheitsbeginns verwendet (jedenfalls, da wo sie den auch haben).

Kommen wir zum fetten Text: Während das Beispiel mit dem Wechsel von E nach I anfängt, geht es dann um Zeitpunkte von Infektionen, die auch noch gleichmäßig verteilt seien – aber worüber? Die tatsächliche Verteilung soll dann aber egal sein, aber auf jeden Fall dauert sie länger als 5,2 Tage?! Trotzdem haben nach 5,2 Tagen praktisch alle Infizierten Symptome ausgebildet – dann ginge die Verteilung ja genau so lang?! Als nächstes wird so getan, als ob es in allen 5,2 Tagen gleich wahrscheinlich ist, sich anzustecken. Die Wahrscheinlichkeit vom ersten Tag ist dann der Proportionalitätsfaktor.

Daraus bin ich nicht schlau geworden. Es ist auch alles falsch und komplett durcheinander geraten. Verstanden habe ich es erst, nach dem ich den Artikel der englischen Wikipedia zu den verschiedenen SI-Modellen und zwar speziell zu den Übergangsraten gelesen habe.

Es wird eine exponentielle Wahrscheinlichkeitsverteilung angenommen. Diese beschreibt die Häufigkeitsverteilung von Intervalllängen (also Zeiträumen) zwischen Ereignissen, die zufällig mit einer gewissen Dichte λ verteilt erfolgen, d.h. im Schnitt erfolgen λ Ereignisse pro Zeiteinheit. Beispiel: 20 Leute haben Geburtstage verteilt über 365 Tage. Es erfolgen also λ=20365 Geburtstage pro Tag. Die Exponentialverteilung gibt nun an, wie hoch die Wahrscheinlichkeit ist, dass von einem Geburtstag zum nächsten eine bestimmte Zeitspanne liegt.

Dieses Modell passt auf den Übergang von S nach E bzw. I – also bei den Infektionen. Der englische Artikel bestätigt auch noch mal die zugrunde liegende Annahme, dass alle Personen untereinander Kontakt haben können, denn er setzt das Produkt SI (alle möglichen Kontakte zwischen Gesunden und Infektiösen) ins Verhältnis zur Gesamtzahl aller möglichen Kontake (einschließlich den Kontakten zu sich selbst) N2. Dies berücksichtigt natürlich nicht die lokalen Wahrscheinlichkeiten/Möglichkeiten und ist deshalb eine falsche Annahme, wie ich im Artikel Spiel des Lebens und auch vorher schon schrieb.

Zurück zum Text. Die Exponentialverteilung hat in der Tat einen Erwartungswert (das ist nicht genau das, was man gemeinhin als Mittelwert meint!) von 1/λ. Rechnet man nicht in Ereignissen pro Zeiteinheit, sondern in Zeiteinheiten pro Ereignis (also T=36520 Tage zwischen Geburtstagen), dann erhält man mit λ=1T genau den Erwartungswert T, wobei das keine Kunst ist – so haben wir schließlich angefangen.

Hier liegt jetzt auch die Erklärung dafür, dass sich die Verteilung über die Zeitspanne T hinaus streckt. Die Zeit zwischen den Ereignissen kann natürlich auch länger als der Durchschnitt liegen. Die restlichen Schlussfolgerungen sind aber falsch. Stattdessen wird einfach die Wahrscheinlichkeit für die Intervalllänge 0 als Proportionalitätsfaktor genommen, was aber nur bei der Exponentialverteilung geht. Dieser Wert ist dann genau λ=1T.

Damit zeigt sich aber auch, dass zwar der Wert β in den SI-Modellen korrekt ist, dass aber die anderen Übergänge also die Terme mit den Faktoren γ und a schlicht falsch sind, weil sie die falsche Wahrscheinlichkeitsverteilung verwenden. Dies ist alles andere als egal.

Für den Übergang von angesteckt zu ansteckend und ebenfalls für die Gesundung braucht es nämlich eine gewisse Zeit. Es sind keine gleichverteilten Ereignisse in einem Zeitraum, sondern sie hängen am ersten Zeitpunkt – der Infektion. Dementsprechend müssten sie z. B. mit einer Normalverteilung (das ist die bekannte Gaußsche Glockenkurve) um das mittlere Zeitintervall modelliert werden! Wenn man krank geworden ist, dann ist die Wahrscheinlichkeit am selben Tag zu gesunden praktisch null. Wie ich hier schon schrieb, würde dies die Differentialgleichungen komplett anders aussehen lassen. Vor allem lassen sich damit kaum noch vernünftige Berechnungen anstellen.

Das ist vermutlich auch der Grund, warum solche komplexeren Modelle nicht verwendet werden. Tragischerweise verwendet Merkert in ihrem Artikel die analytischen Berechnungen am SEIR-Modell überhaupt nicht. Sie verwenden zwar einen numerischen Löser für Differentialgleichungen, der auf dieser Analytik basiert, aber nimmt den Kurvenwert nur tagesweise. Man könnte also auch komplett auf das numerische Lösen verzichten und tagesweise in Schritten vorgehen, was eben eine relativ einfache Implementierung der anderen Wahrscheinlichkeitsverteilungen ermöglichen würde.

Potenzfunktionen

Am konfusesten ist die Herangehensweise von Zecha. Da hat er gerade Exponentialfunktion gegoogelt und dann auch gelesen, was eine logarithmische Skala ist. Nur wofür man sie braucht, ist ihm nicht klar. Eigentlich verwendet man sie, um relative Änderungen nahe 0 genauso detailliert darzustellen wie Änderungen im selben Bild bei großen Zahlenwerten.

Nicht so bei Zecha: Er verwendet die logarithmische Einteilung, um händisch eine Parameteroptimierung durchzuführen. Nur so kann man erklären, warum er auch die Zeitachse logarithmisch einteilt, was überhaupt keinen Sinn ergibt.

Wir erhalten für einzelne Zeitabschnitte einen Verlauf, der sich sehr befriedigend, mit einem Bestimmtheitsmaß von jeweils R2>0,99, durch Geradenabschnitte annähern lässt. Ohne tiefere mathematische Kenntnisse liefern Tabellenkalkulationsprogramme durch eine Trendlinie die zugehörige Potenzfunktion (im doppelt-logarithmischen Netz), […]

Wenn nur die y-Achse logartihmisch eingeteilt wäre, entsprächen Geraden skalierten Exponentialfunktionen. Nun hat er auch die x-Achse logarithmisch dargestellt, um über Näherungsgeraden skalierte Potenzfunktionen zu erhalten. Allerdings sind Potenzfunktionen etwas anderes als Exponentialfunktionen. Das ist dermaßen konfus, dass mir dazu partout kein passendes Modell einfällt.

Zum einen ist die Summe der bestätigt Infizierten ein denkbar ungeeignetes Optimierungsziel, weil starke Änderungen bei den festgestellten Neuinfektionen sich relativ zur Gesamtsumme nur schwach auswirken. Zum anderen nennt er den Exponenten der Potenzfunktion »Infektionsrate« und vergleicht ihn mit der Reproduktionszahl, was aber wenig Sinn ergibt, wenn man bedenkt, dass dort Zeitwerte(!) potenziert werden.

Hinzu kommt, dass die von ihm berechneten Funktionen gar nicht richtig zusammenpassen, wie man an seinem Diagramm mit den Neuinfektionen sieht. Es gibt dort immer Sprünge. Offensichtlich hat er die Meldezahlen und nicht die Nowcast-Zahlen genommen, so dass die Sprünge auffällig häufig in ein sieben-Tage Raster passen.

Außerdem verwechselt er die effektive Reproduktionszahl mit der Reproduktionszahl. Erstere wird berechnet, letztere kann nicht mal gemessen werden. Beides hat aber auch wiederum nichts mit dem R im Zitat zu tun. Dieses R sieht so aus, als ob es eine Genauigkeitsforderung wäre. Allerdings würde man korrekterweise eine Fehlerschranke fordern, also etwas was möglichst klein werden sollte.

Optimierungen

Mir ist nicht ganz klar, wie Mayer auf seine Kurven kommt, aber offensichtlich liegt dem ein SI-ähnliches Modell zugrunde, bei dem die Parameter so angepasst wurden, dass die Kurven einen möglichst kleinen Fehler im Vergleich zu den gemessenen Zahlen haben. Merkert verwendet eine Pythonfunktion, die anscheinend den Levenberg-Marquardt-Algorithmus verwendet, wobei sie die Kurve in vier Abschnitten unterteilt. Zecha verwendet seine obskure Annäherung durch Geraden im doppelt-logarithmischen Diagramm.

Allen drei Verfahren ist gemein, dass es einen Funktionenraum gibt, aus dem die am besten passende Funktion herausgesucht werden soll. Der Funktionenraum umfasst dabei bei Mayer und Merkert alle möglichen Funktionen, die bei unterschiedlichen Parametern (Startwerte, β, γ und a – bei Merkert für vier verschieden Phasen getrennt) entstehen können. Außerdem optimieren sie gleich mehrere, zusammengehörige Funktionen (Infizierte, Infektiöse, usw.) gleichzeitig.

Bei Zecha wird dagegen nur die Funktion der aufsummierten bestätigten Infizierten angenähert. Der Funktionenraum besteht aus allen Funktionen, die sich aus verschiedenen, skalierten Potenzfunktionen zusammensetzen. Man erkennt sofort, dass Zecha einen ungleich größeren Funktionsraum verwendet (Anzahl der verschiedenen Potenzfunktionen ist erstmal nicht festgelegt und für jede gibt es zwei Parameter plus die Intervallgrenze).

Es ist nun so, dass, wenn die Messpunkte halbwegs in das angedachte Schema passen (wächst zuerst immer schneller werdend, um danach abzuflachen und langsam wieder zu verschwinden), es bei hinreichend dichten Funktionsräumen kein Problem ist, eine Funktion zu finden, bei der die Fehler kaum auffallen. Dies ist aber nun kein Beweis, dass das dem Funktionsraum zugrundeliegende Modell korrekt ist. Denn dies lässt sich auch mit anderen Funktionsräumen und Modellen erreichen (wie man bei Zecha sieht – aber auch bei Mayer, der ja noch eine Sinusüberlagerung braucht, damit es passt).