
Nachdem Pfizer eine Pressemitteilung mit vorläufigen Ergebnissen von Versuchen mit seinem Impfstoff gegen das Coronavirus herausgegeben hatte, die Aktien von Zoom und Netflix an der Börse zusammenbrachen, wollte die Europäische Union 300 Millionen Dosen des neuen Impfstoffs kaufen, und das russische Gamaleya Center kündigte bald an dass sein Impfstoff sogar noch wirksamer war. All dieses Rauschen wurde durch drei Zahlen verursacht: 90, 94, 164. Wir sagen Ihnen, woher sie kamen, was sie bedeuten und welche Zahlen tatsächlich benötigt werden, um mit dem Zählen aufzuhören und mit dem Stechen zu beginnen.

Was ist Effizienz?
Eine der ersten Zahlen, die uns beim Öffnen einer Pressemitteilung ins Auge fällt, ist keineswegs diejenige, über die wir uns freuen sollten. Dies ist die Zahl der Menschen, die sich in klinischen Studien mit COVID-19 infiziert haben. Es bedeutet jedoch, dass die Forscher endlich etwas Material haben, mit dem sie arbeiten können – indem sie den Anteil der Fälle in der Impfstoffgruppe und der Placebogruppe vergleichen.
Basierend auf den Ergebnissen dieses Vergleichs berechnen die Organisatoren der Studien die Wirksamkeit des Impfstoffs. Dazu dividieren sie den Fallanteil der Impfgruppe durch den Fallanteil der Placebogruppe, ziehen das Ergebnis von eins ab und multiplizieren es mit 100 Prozent.
Wenn beispielsweise zwei Gruppen von 100 Personen an dem Experiment teilnahmen und fünf Personen in der Impfstoffgruppe und zehn Personen in der Placebogruppe erkrankten, dann wäre die Wirksamkeit:
Zwar lassen die knappen Daten, die in der Pressemitteilung erscheinen, eine solche Berechnung nicht zu. Will man verstehen, wie sich die Fallzahlen in unterschiedlichen Gruppen im Verlauf der Pfizer-Impfstoffstudien verhalten, muss man in die entgegengesetzte Richtung zählen. Tatsache ist, dass in der Pressemitteilung nur die Gesamtzahl der Fälle angegeben wird - 94, und die darauf berechnete Effizienz "mehr als 90 Prozent" beträgt.
Wenn wir nach der klassischen Formel zählen, stellt sich heraus, dass in der Impfstoff- und der Placebogruppe 9 bzw. 85 Personen erkrankt sind (es ist egal, wie viele Personen in den Gruppen waren, da die Veröffentlichung auf gleiche Zahlen hinweist):
Es ist jedoch möglich, dass die Pfizer-Experten selbst die Wirksamkeit ihres Impfstoffs anders berechnet haben. Tatsache ist, dass sie in ihren Berechnungen - laut Testbericht - versprochen haben, Bayessche Statistiken zu verwenden. Es erfordert komplexere Berechnungen, ermöglicht es jedoch, Ereignisse (d. h. Krankheitsfälle während einer Studie) als potenziell zusammenhängend und nicht als unabhängig zu betrachten. Und wenn wir davon ausgehen, dass sie im Zuge der Bayesschen Berechnungen die Zahl von 90 Prozent erhalten haben, dann fällt die Fallzahl in der Impfstoffgruppe noch geringer aus - nur 7 oder 8.
Woher kommen diese Zahlen?
Bei der Bayes-Analyse wird die Wirksamkeit des Impfstoffs nicht direkt berechnet. Zunächst wird der Wert von θ (Theta) berechnet, der die Bayessche Wahrscheinlichkeit widerspiegelt, dass der Impfstoff bei gegebenen Fallzahlen in den beiden Gruppen immer noch unwirksam sein kann. Die Formel für ihre Berechnung laut Pfizer-Protokoll sieht wie folgt aus:
θ = α / (α + β),
wobei α = 0, 700102 + v (Anzahl der Fälle in der Impfstoffgruppe),
a β = 1 + c (Anzahl der Fälle in der Placebogruppe).
Anhand des berechneten θ kann dann der tatsächliche Wirkungsgrad berechnet werden:
E = (1 - 2θ) / (1 - θ) × 100
Die Koeffizienten 0, 700102 und 1 wurden so gewählt, dass, wenn in beiden Gruppen niemand krank wurde (c und v sind gleich Null), die berechnete Wirksamkeit etwas unter 30 Prozent lag, d. h. der Schwellenwert, an dem Pfizer liegt nicht bereit, seinen Impfstoff als wirksam zu betrachten.
Wenn wir Pressemitteilungsdaten in diese Formeln einsetzen, erhalten wir Folgendes.
0, 9 = (1 - 2θ) / (1 - θ),
daher = 0,09.
0,09 = 0,700102 + v / 0,700102 + v + 1 + c
Da v + c = 94 gilt, erhalten wir v = 7, 9
So kann die Anzahl der Fälle in der Impfstoffgruppe 7 oder 8 Personen betragen, dann in der Placebogruppe - 87 bzw. 86.
Für den Impfstoff Gamaleya Center ist diese Berechnung viel schwieriger zu reproduzieren. Der ursprüngliche Datensatz in ihrer Veröffentlichung ist nicht reichhaltiger als der von Pfizer: 92 Prozent Effizienz und 20 Krankheitsfälle. Wir wissen jedoch nicht genau, wie die Organisatoren der klinischen Sputnik-Studien die Wirksamkeit berechnen wollen – zumindest sagt das offizielle Protokoll nichts darüber aus. Wenn wir annehmen, dass sie die klassische Formel verwenden, dann erhalten wir
92 = (1 - v / (20 - v)) × 100
Daher ist v 1,5.
Das heißt, das Verhältnis der Fälle beträgt 1-2 gegenüber 18-19. Diese Zahlen sind jedoch nur gültig, wenn die Gruppen gleich groß sind. Und die Organisatoren der Sputnik-Studien planten sie zunächst ungleich aus - 3:1 zugunsten der Impfstoffgruppe. Und da zur Beurteilung der Wirksamkeit nicht die absolute Fallzahl, sondern deren Anteil an der Gruppe berücksichtigt werden muss, ändert sich die Formel und sieht so aus:
,
wobei x die Stichprobengröße ist (ist für diese Berechnung nicht wichtig)
Dann ist v ≈ 4, und das Verhältnis der Fälle ist 4 zu 16.
Wenn wir also weder das von den Sputnik-Testern verwendete Berechnungsprotokoll noch das Verhältnis zwischen den Gruppen kennen (und laut Pressemitteilung wurden während der Tests bisher weniger Menschen geimpft als erwartet), können wir keine genauen Angaben machen Werte.
Vertrauensintervall
Aber sollte man einer solchen Wirksamkeitsbewertung auch nach dem, was bereits vorhanden ist, Glauben schenken? Könnte es sein, dass einige der Gruppen versehentlich zusätzliche Kranke hatten, das ganze Bild des Prozesses ruinierten (oder umgekehrt verschönerten) und Netflix-Aktien fallen ließen?
Um solche Fehler zu vermeiden, berechnen die Forscher einen weiteren Sicherheitsparameter – das Konfidenzintervall. Dies ist die Streuung der Werte, bei der der von ihnen erhaltene Wert in einem bestimmten Prozentsatz der Experimente abfällt - zum Beispiel in 95 von 100 Fällen, wenn die Tests 100 Mal hintereinander wiederholt werden konnten. Mit anderen Worten, für einen Impfstoff, der zu 90 Prozent wirksam ist, kann der KI entweder eng (z. B. 85-95) oder breit (30-99) sein – so können wir die Genauigkeit und Wahrscheinlichkeit des Ergebnisses ableiten.
In der Pressemitteilung von Pfizer wird das Konfidenzintervall nicht angegeben. Sie kann jedoch mit klassischen statistischen Formeln berechnet werden. Zum Beispiel haben Benutzer der Site R-bloggers.com dies getan und das folgende Intervall erhalten: von 80, 8 bis 95, 5. Experimentatoren werden 95 von 100 Mal in dieses Intervall fallen - das heißt mit ziemlicher Sicherheit. Das heißt, auch wenn einige der Fälle versehentlich in der Pfizer-Stichprobe auftraten und nicht das allgemeine Bild in der Bevölkerung widerspiegeln, ist der Impfstoff immer noch zu mindestens 80 Prozent wirksam.
Berechnet man mit der gleichen Formel das Konfidenzintervall für Sputniks Ergebnisse (angenommen, von den 16.000 bereits geimpften Personen erhielten 4.000 ein Placebo und 12.000 den eigentlichen Impfstoff), ergibt sich ein ganz anderes Bild: von 75 auf 97 Prozent. Dieses Konfidenzintervall ist breiter, was bedeutet, dass die Tester eine größere Chance haben, mit Effizienz zu überschwingen.
Warum ist es passiert? Hier kommt der Stichprobenumfang ins Spiel, der Teil der Formel zur Berechnung des Konfidenzintervalls ist. Je mehr Chancen wir hatten, eine Infektion zu entdecken oder nicht zu entdecken, desto höher ist das Vertrauen in unser Ergebnis. Aber die Probe von Sputnik ist fast dreimal kleiner als die des Pfizer-Impfstoffs, daher ist es nicht verwunderlich, dass sie ein solches Ergebnis liefert. Um zuverlässige Daten zu erhalten, müssen Sie entweder viele Personen gleichzeitig sammeln oder die Tests ausdehnen. Das erste ist teuer, das zweite in einer Pandemie unrealistisch. Sie müssen zwischen quälender Vorfreude, Kosten und Vertrauen wählen.
Wann aufhören zu zählen?
An welchem Punkt haben Impfstofftester das Recht, aufzuhören und zu sagen, dass sie nicht mehr Probanden rekrutieren müssen, sondern zu endgültigen Schlussfolgerungen übergehen können? Dies wird durch die dritte Kennzahl – die Schwellenzahl der Fälle – bestimmt. Dies ist die Anzahl der Fälle, die ausreicht, um ein Ergebnis mit einer bestimmten Genauigkeit zu erhalten.
In seinem Protokoll hat Pfizer 5 solcher Schwellenwerte festgelegt: 32, 62, 92, 120 und 164 Fälle. Für jede Phase berechneten die Forscher das Verhältnis der Fälle, bei denen der Impfstoff als eindeutig erfolgreich oder eindeutig als fehlgeschlagen gelten kann. Bei Punkt 92 ergibt das Verhältnis 25:67 beispielsweise einen Wirkungsgrad von 62,7 Prozent und 35:57 - nur 38,6 Prozent, was als Grund für den Abbruch des Tests dienen sollte.
Dieser Schwellenwert ist die Grundlage, auf der das gesamte Design der Impfstoffstudie aufbaut. Nachdem Pfizer für sechs Monate Testzeit für sich selbst eine Zahl von 164 Fällen ermittelt hatte, war klar, welche Probe Sie sammeln müssen, um sie wissentlich zu erhalten. Die Forscher nahmen die COVID-19-Inzidenzrate von 1,3 Prozent der Bevölkerung pro Jahr und gingen davon aus, dass etwa 20 Prozent der Probanden bzw. Auf dieser Grundlage berechneten sie eine angestrebte Stichprobengröße von 43.998 – und begannen mit der Rekrutierung von Freiwilligen.
Die Organisatoren der Studie erwarteten, in sechs Monaten 164 Fälle der Krankheit zu erhalten, aber die Dinge gingen unerwartet schneller. Nach einem Treffen mit der FDA wurde beschlossen, die 32-Schwelle zu überspringen und die Ergebnisse erst nach 62 Fällen auszuwerten. Bis zum erwarteten Zeitpunkt der Zusammenfassung der Zwischenergebnisse der Krankheitsfälle waren jedoch bereits 92. Vielleicht spielte der Herbst eine Rolle - die Forscher schätzten die Inzidenzrate nach Sommerraten, im Herbst sprangen sie und das erforderliche Niveau wurde schneller erreicht. Jetzt hat Pfizer mehr als die Hälfte der benötigten Fälle, was bedeutet, dass die Möglichkeit besteht, die Tests vorzeitig abzuschließen - was möglicherweise einer der Faktoren war, die das Vertrauen der EU in die Nähe des lang erwarteten Impfstoffs gestärkt und zum Einsturz gebracht haben Zoom-Aktien. Darüber hinaus liegt das Verhältnis von 7-9 zu 87-85 bereits deutlich über der Vertrauensschwelle von Pfizer in die eigenen Daten.
Im Protokoll von "Sputnik" steht keine Schwelle für die Anzahl der Krankheiten in Frage (es gibt nur den Zeitraum an - sechs Monate ab dem Zeitpunkt der ersten Dosis, in dem der Prozentsatz der Fälle unter den Studienteilnehmern berechnet werden sollte). Wir können aber davon ausgehen, dass die Fallzahl in diesem Test nicht geringer sein sollte als die von Pfizer – wenn man die gleiche Zuverlässigkeit und Effizienz erreichen möchte. Zudem tritt nun auch der Impfstoff von Moderna Sputnik auf die Fersen: Nach Pfizers Ankündigung sagten Unternehmensvertreter, man plane eine Zwischenanalyse ihrer dritten Phase nach 53 Fällen, sie hätten aber bereits „deutlich mehr“.
Wie viel Effizienz brauchen Sie?
Nach der Entwicklung des Rennens zu urteilen, werden in absehbarer Zeit mehrere Unternehmen ihre Versuche auf einmal abschließen – und mehrere Impfstoffe mit unterschiedlicher Wirksamkeit und unterschiedlichem Vertrauen auf den Markt kommen. Ich würde mir natürlich wünschen, dass zukünftige Impfstoffe gegen das Coronavirus zu 100 Prozent wirken (also Krankheiten verhindern), aber das ist kaum zu erreichen. Dies ist bei keinem der uns bekannten Impfstoffe passiert: Derjenige, der bei der Bekämpfung der Pocken half, schützte nur 95 Prozent der Geimpften. Moderne Masernimpfstoffe wirken zu 97 Prozent, Grippeimpfstoffe nur zu 40-60 Prozent und können die Schwere der Krankheit eher verringern als verhindern.
Dies ist nicht die Schuld der Impfstoffhersteller. Nicht alle Menschen haben ein Immunsystem, das gleich stark auf den Impfstoff reagiert und die richtige Menge an Antikörpern produziert, um eine Abwehr zu bilden. Dennoch könnte selbst eine 50-prozentige Effizienz im Kampf gegen eine Pandemie deutlich helfen – da sich bereits nach und nach eine Herdenimmunität durch Menschen bildet, die eine Coronavirus-Infektion hatten. Daher stimmte die US-amerikanische FDA der Zulassung eines Impfstoffs zu, der eine Wirksamkeit von mindestens 50 Prozent aufweisen wird, und Pfizer hat 60 Prozent als Tiefpunkt festgelegt.
Selbst wenn einige der Neugeborenenimpfstoffe nicht die wirksamsten sind, wird es also kein großes Problem geben. Sie alle werden auf die eine oder andere Weise zum Bau der Welt-"Mauer" gegen das Coronavirus beitragen. Eine andere Sache ist, dass alle oben angegebenen Berechnungen es uns ermöglichen, nur zufällige Fehler zu berücksichtigen, dh Situationen, die nicht miteinander zusammenhängen, wenn eine bestimmte Diagnose falsch gestellt wird. In diesen Formeln ist kein Platz für systematische und methodische Fehler. Und wenn die Organisatoren des Experiments beispielsweise minderwertige PCR-Tests verwenden oder beschließen, COVID-19 nur bei Personen zu diagnostizieren, die sich im Krankenhaus befinden, dann all unsere Überlegungen zur Genauigkeit und Zuverlässigkeit selbst dieser mageren Daten, die gesammelt werden können aus Pressemitteilungen wird sich als nutzlos erweisen.
Änderung
In der Originalversion des Textes haben wir ein anderes Ergebnis der Berechnung des Konfidenzintervalls für den russischen Impfstoff präsentiert. Es war viel breiter, aber die Berechnung erwies sich als falsch. Die Redaktion ist Alexander Ermakov dankbar, der uns auf den Fehler hingewiesen hat.