Statistische Signifikanz vs. Äquivalenz: Was klinische Prüfungen wirklich zeigen

Bei medXteam stehen klinische Daten im Mittelpunkt. In diesem Kontext führen wir als CRO nicht nur klinische Prüfungen mit Medizinprodukten gemäß MDR und ISO 14155 durch, sondern bieten auch sämtliche weiteren Möglichkeiten und Formen der Datenerhebung und Produktzulassung sowie Marktüberwachung an. Im Fokus stehen bei klinischen Prüfungen die erhobenen Daten, die Auswertung der Daten sowie die Interpretation der Ergebnisse. Im Rahmen der Interpretation der Ergebnisse wird oft der Fehler gemacht, das Fehlen eines statistisch signifikanten Unterschieds zwischen zwei Behandlungen oder Produkten als Beweis für deren Äquivalenz zu interpretieren. In diesem Blogbeitrag beleuchten wir, warum ein nicht signifikanter Unterschied nicht gleichbedeutend mit Äquivalenz ist und welche Konsequenzen dies für klinische Studien von Medizinprodukten haben kann.

Zugrundeliegende Regularien

EU-Verordnung 2017/745 (MDR)
ISO 14155

1. Einleitung

Ein wesentlicher Schritt nach der Erhebung von Daten in klinischen Prüfungen ist deren Auswertung. Hierbei spielt die Prüfung einer statistischen Signifikanz oder Äquivalenz eine entscheidende Rolle, abhängig vom Charakter der Studie und dem Untersuchungsziel. Statistische Signifikanz bezieht sich darauf, ob die beobachteten Ergebnisse wahrscheinlich auf einen echten Effekt zurückzuführen sind und nicht auf zufällige Schwankungen. Äquivalenz hingegen bedeutet, dass zwei Behandlungen oder Produkte als gleichwertig betrachtet werden können, da ihre Unterschiede klinisch nicht relevant sind.

2. Was bedeutet ein nicht signifikanter Unterschied?

Ein nicht signifikanter Unterschied in einer klinischen Studie bedeutet, dass der beobachtete Unterschied zwischen zwei Gruppen nicht groß genug ist, um mit statistischer Sicherheit zu behaupten, dass er nicht durch Zufall entstanden ist. Typischerweise wird ein p-Wert von über 0,05 als nicht signifikant betrachtet. Der p-Wert gibt an, wie wahrscheinlich es ist, dass die beobachteten Daten oder etwas Extremeres unter der Annahme der Nullhypothese auftreten. Das Signifikanzniveau (meistens 0,05) ist der Schwellenwert, bei dem der p-Wert als klein genug angesehen wird, um die Nullhypothese abzulehnen.

Beispiel:

Eine klinische Studie vergleicht ein neues Implantat mit einem bestehenden Implantat und findet einen p-Wert von 0,08. Dies bedeutet, dass die Wahrscheinlichkeit, dass der beobachtete Unterschied durch Zufall entstanden ist, höher als 5 % ist. Da der p-Wert über dem festgelegten Signifikanzniveau von 0,05 liegt, wird der Unterschied als nicht signifikant betrachtet.

3. Warum ist das nicht gleichbedeutend mit Äquivalenz?

Im Unterschied zur Überprüfung auf einen statistisch signifikanten Unterschied zielt die Äquivalenzprüfung hingegen darauf ab, zu zeigen, dass die Unterschiede zwischen zwei Behandlungen oder Produkten so gering sind, dass sie innerhalb eines klinisch akzeptablen Bereichs liegen. Dies wird durch spezifische Studiendesigns wie Äquivalenz- oder Nicht-Unterlegenheitsstudien erreicht.

Äquivalenzstudien:

Diese Studien setzen zwei vordefinierte Grenzen (Äquivalenzgrenzen), innerhalb derer die Unterschiede zwischen den Behandlungen liegen müssen, um als äquivalent zu gelten. Das Ziel ist es zu zeigen, dass die Effektivität oder Sicherheit des neuen Produkts nicht wesentlich von der des etablierten Produkts abweicht.

Nicht-Unterlegenheitsstudien:

Diese Studien prüfen, ob das neue Produkt nicht schlechter ist als das bestehende Produkt, indem sie nur eine untere Grenze festlegen, die das neue Produkt nicht überschreiten darf.

4. Unterschiede in der Methodik

4.1 Nullhypothese

Bei Tests auf statistisch signifikante Unterschiede lautet die Nullhypothese meist, dass es keinen Unterschied gibt. In Äquivalenzstudien lautet die Nullhypothese hingegen, dass die Behandlungen nicht äquivalent sind. Die Studie muss genügend Beweise liefern, um diese Nullhypothese zu widerlegen.

Bei beiden Arten von Studien spielen statistische Signifikanztests eine zentrale Rolle, jedoch unterscheiden sich die Zielsetzungen und die Interpretation der Ergebnisse. In klassischen Tests auf statistische Signifikanz sucht man nach einem Beweis, dass ein beobachteter Unterschied nicht durch Zufall zustande gekommen ist. Die Nullhypothese wird verworfen, wenn ein statistisch signifikanter Unterschied festgestellt wird (p-Wert < α).

In Äquivalenzstudien hingegen wird die Nullhypothese aufgestellt, dass die Behandlungen nicht äquivalent sind (d.h., dass es einen bedeutenden Unterschied gibt). Um diese Nullhypothese zu widerlegen, muss die Studie zeigen, dass die Unterschiede zwischen den Behandlungen so klein sind, dass sie innerhalb eines vordefinierten Äquivalenzbereichs liegen. Auch hier wird die statistische Signifikanz geprüft, allerdings wird ein anderes Konfidenzintervall verwendet. Die Ergebnisse müssen zeigen, dass das Konfidenzintervall des Unterschieds vollständig innerhalb des Äquivalenzbereichs liegt, um statistische Signifikanz in Bezug auf Äquivalenz zu erreichen.

In beiden Fällen wird also statistische Signifikanz verwendet, jedoch mit unterschiedlichen Zielen und Interpretationen.

4.2 Konfidenzintervalle

Während bei der Prüfung auf signifikante Unterschiede Konfidenzintervalle genutzt werden, um die Unsicherheit der Schätzung zu zeigen, werden in Äquivalenzstudien Konfidenzintervalle genutzt, um zu prüfen, ob sie innerhalb der festgelegten Äquivalenzgrenzen liegen. Wenn das gesamte Konfidenzintervall innerhalb dieser Grenzen liegt, kann Äquivalenz angenommen werden.

Diese Unterschiede in der Methodik machen deutlich, dass das bloße Fehlen eines statistisch signifikanten Unterschieds nicht ausreicht, um Äquivalenz zu beweisen. Es gibt weitere Faktoren, die berücksichtigt werden müssen, um eine korrekte Interpretation der Studienergebnisse zu gewährleisten.

4.3 Mangelnde Power der Studie

Eine Studie mit einer kleinen Stichprobengröße oder unzureichender Power können wahre Unterschiede übersehen werden. Das Fehlen eines signifikanten Unterschieds kann daher einfach darauf zurückzuführen sein, dass die Studie nicht ausreichend war, um diesen Unterschied zu erkennen. Hier kommt die Fallzahlplanung ins Spiel: Eine sorgfältige Fallzahlplanung ist entscheidend, um die Power der Studie sicherzustellen. Die Power einer Studie beschreibt die Wahrscheinlichkeit, dass die Studie einen echten Effekt entdeckt, wenn dieser tatsächlich existiert. Ohne eine angemessene Fallzahlplanung besteht das Risiko, dass eine Studie aufgrund zu geringer Teilnehmerzahl nicht in der Lage ist, signifikante Unterschiede zu erkennen, selbst wenn sie existieren.

4.4 Konfidenzintervalle und Unsicherheit der Schätzung

Ein nicht signifikanter Unterschied kann mit breiten Konfidenzintervallen einhergehen, die sowohl für klinisch bedeutsame Unterschiede als auch für keine Unterschiede sprechen können. Dies zeigt die Unsicherheit der Schätzung und deutet nicht auf Äquivalenz hin.

4.5 Falsche Nullhypothese

Die Nullhypothese in den meisten Studien lautet, dass es keinen Unterschied gibt. Das Nicht-Zurückweisen dieser Nullhypothese bedeutet nicht, dass bewiesen wurde, dass es keinen Unterschied gibt, sondern nur, dass nicht genügend Beweise vorliegen, um das Gegenteil zu behaupten.

5. Beispiele der Problematik in klinischen Prüfungen von Medizinprodukten

5.1 Vergleich zweier Implantate

In einer Studie zur Bewertung eines neuen Hüftimplantats im Vergleich zu einem etablierten Produkt findet sich ein p-Wert von 0,06. Obwohl der Unterschied nicht statistisch signifikant ist, könnte das neue Implantat immer noch weniger effektiv oder sicher sein. Ein breites Konfidenzintervall könnte von einer großen Überlegenheit bis hin zu einer deutlichen Unterlegenheit reichen.

5.2 Bewertung eines neuen Diagnosegeräts

Ein neues Diagnosegerät wird gegen ein Standardgerät getestet, und die Ergebnisse zeigen einen p-Wert von 0,09. Dies bedeutet nicht, dass beide Geräte gleich gut sind, sondern nur, dass die Studie nicht ausreichend Beweise gefunden hat, um einen Unterschied festzustellen. Möglicherweise ist die Studie nicht ausreichend groß, um kleine, aber klinisch relevante Unterschiede zu erkennen.

6. Wie sollte Äquivalenz geprüft werden?

6.1 Äquivalenz- und Nicht-Unterlegenheitsstudien

Um Äquivalenz zu prüfen, müssen spezifische Studiendesigns wie Äquivalenz- oder Nicht-Unterlegenheitsstudien verwendet werden. Diese Studien haben spezifische Hypothesen und statistische Methoden, um zu zeigen, dass die Unterschiede zwischen den Behandlungen innerhalb einer vordefinierten Toleranzgrenze liegen.

Beispiel:

Eine Äquivalenzstudie könnte definieren, dass das neue Implantat klinisch äquivalent ist, wenn der Unterschied in der Funktionalität innerhalb eines Bereichs von ± 2 % im Vergleich zum Standardimplantat liegt.

6.2 Konfidenzintervalle und Äquivalenzgrenzen

Anstatt nur auf p-Werte zu schauen, sollten auch Konfidenzintervalle betrachtet werden. Wenn das gesamte Konfidenzintervall innerhalb der vordefinierten Äquivalenzgrenzen liegt, kann Äquivalenz angenommen werden.

7. Praktische Schritte zur Vermeidung von Missverständnissen

Klares Studiendesign:

Die Studie sollte klar definieren, ob sie darauf abzielt, Unterschiede zu finden (Überlegenheitsstudie) oder Äquivalenz bzw. Nicht-Unterlegenheit zu beweisen. Dies beeinflusst die Wahl der statistischen Methoden und die Interpretation der Ergebnisse.

Angemessene Stichprobengröße:

Eine ausreichende Stichprobengröße ist entscheidend, um die Power der Studie sicherzustellen. Dies hilft, echte Unterschiede zu erkennen und falsch-negative Ergebnisse zu vermeiden.

Vordefinierte Äquivalenzgrenzen:

Vor Beginn der Studie sollten klare Äquivalenzgrenzen festgelegt werden, basierend auf klinischen Überlegungen. Dies hilft, die klinische Relevanz der Ergebnisse besser zu bewerten.

8. Fazit

Das Fehlen eines statistisch signifikanten Unterschieds in klinischen Studien bedeutet nicht automatisch, dass die getesteten Medizinprodukte äquivalent sind. Um Äquivalenz nachzuweisen, sind spezifische Studiendesigns und statistische Methoden erforderlich. Eine sorgfältige Planung und Interpretation der Studienergebnisse sind entscheidend, um die tatsächliche Wirksamkeit und Sicherheit von Medizinprodukten zu bewerten. Nur so können wir sicherstellen, dass neue Produkte den hohen Standards der klinischen Praxis entsprechen und echten Nutzen für die Patienten bieten.

9. Wie wir Ihnen helfen können

Unsere Statistiker begleiten Sie von der Datenerhebung über die Analyse bis hin zur Interpretation der Ergebnisse. Seien Sie auf der sicheren Seite.

Als CRO unterstützen wir Sie über den gesamten Prozess der Generierung und Bewertung klinischer Daten und bei der Zulassung und Marktüberwachung Ihres Produkts. Und dabei beginnen wir mit der klinischen Strategie! Außerdem erstellen wir die komplette klinische Bewertungsakte für Sie.

Im Falle von klinischen Prüfungen überlegen wir gemeinsam mit Ihnen, ob überhaupt und wenn ja welche klinische Prüfung unter welchen Voraussetzungen und gemäß welchen Anforderungen durchgeführt werden muss. Das klären wir im Rahmen der Pre-Study Phase: In 3 Schritten ermitteln wir die richtige und kosteneffiziente Strategie in Bezug auf die in Ihrem Fall erforderliche klinische Datenerhebung.

Wenn eine klinische Prüfung durchgeführt werden soll, müssen zuvor grundlegende Sicherheits- und Leistungsanforderungen erfüllt sein. Die Daten aus der klinischen Prüfung münden dann in die klinische Bewertung, die wiederum die Basis für Post-Market-Clinical-Follow-up (PMCF)-Aktivitäten (ggf. einschließlich einer PMCF-Studie) darstellt.

Außerdem benötigen alle Hersteller von Medizinprodukten ein Qualitätsmanagement system (QMS), auch bei der Entwicklung von Produkten der Klasse I.

Wir unterstützen Sie während Ihres kompletten Vorhabens mit Ihrem Medizinprodukt, beginnend bei einer kostenlosen Erstberatung, Hilfe bei der Einführung eines QM Systems, Studienplanung und Durchführung bis hin zur Technischen Dokumentation - immer mit primärem Bezug auf die klinischen Daten zum Produkt: von Anfang an bis zum Ende.

Haben Sie jetzt schon erste Fragen?

Eine kostenfreie Erstberatung erhalten Sie hier: kostenlose Erstberatung

Blog

Statistische Signifikanz vs. Äquivalenz: Was klinische Prüfungen wirklich zeigen

Main Menu