Vergleiche von Therapien mit mäßigen, aber wichtigen Effekten

Vergleich gegenwärtig behandelter Patienten mit Patienten in der Vergangenheit

Manchmal vergleichen Wissenschaftler die Patienten, die sie gegenwärtig behandeln, mit augenscheinlich ähnlichen Patienten, die wegen derselben Krankheit früher anders behandelt wurden. Solche Vergleiche können verlässliche Erkenntnisse liefern, wenn die Behandlungseffekte dramatisch sind – beispielsweise wenn eine neue Therapie bewirkt, dass einige Patienten eine Krankheit überleben, die früher in der Regel tödlich verlaufen ist. Wenn die Unterschiede zwischen den Therapien jedoch nicht dramatisch sind, es sich jedoch trotzdem lohnt, sie zu kennen, können solche Vergleiche, bei denen «historische Kontrollen» verwendet werden, aber Probleme verursachen. Auch wenn Wissenschaftler statistische Anpassungen (Adjustierungen) und Analysen durchführen, um möglichst sicherzustellen, dass sie wirklich Gleiches mit Gleichem vergleichen, so ist es in diesen Analysen jedoch unmöglich, auch den in den Vergangenheit nicht erfassten, aber relevanten Charakteristika von Patienten Rechnung zu tragen. Schlussendlich können wir uns also niemals völlig sicher sein, dass wirklich Gleiches mit Gleichem verglichen wurde.

Diese Probleme lassen sich dadurch veranschaulichen, dass man die Ergebnisse zu ein und derselben Therapie vergleicht, die ähnlichen Patienten zu unterschiedlichen Zeitpunkten verabreicht wurde. Sehen wir uns dazu eine Analyse von 19 Patienten mit fortgeschrittenem Lungenkarzinom an. Darin wurde die jährliche Sterblichkeitsrate von ähnlichen Patienten verglichen, die mit exakt der gleichen Therapie, aber zu verschiedenen Zeitpunkten behandelt wurden. Obwohl man nur geringfügige Unterschiede in den Sterblichkeitsraten erwartet hätte, unterschieden sie sich beträchtlich voneinander: Die Sterblichkeitsraten schwankten zwischen einer Besserung um 24 % und einer Verschlechterung um 46 %. [4] Diese Unterschiede waren eindeutig nicht darauf zurückzuführen, dass sich die Behandlung geändert hatte – sie war gleich geblieben – oder dass die Patienten sich nachweislich unterschieden – auch das traf nicht zu. Vielmehr spiegelten die unterschiedlichen Sterblichkeitsraten vermutlich entweder nicht erkannte Unterschiede zwischen den Patienten wider oder aber andere, im Zeitverlauf aufgetretene, aber nicht erfasste Veränderungen (z. B. bessere Pflege oder bessere Infektionskontrolle), die bei den Vergleichen nicht berücksichtigt werden konnten.

Vergleich zwischen anscheinend ähnlichen Patientengruppen

Um die Wirkungen von Therapien zu beurteilen, vergleicht man auch die Erfahrungen und Behandlungsergebnisse von augenscheinlich ähnlichen Patientengruppen, die im selben Zeitraum zufällig unterschiedliche Therapien erhalten haben. Aber auch diese Methode kann grob irreführend sein. Ähnlich wie bei den Vergleichen mit «historischen Kontrollen» besteht auch hier das Problem darin, dass man wissen muss, ob sich die Personengruppen, die unterschiedliche Therapien erhalten haben, bereits vor Einleitung der Behandlung hinreichend ähnlich waren, damit ein aussagekräftiger (valider) Vergleich überhaupt möglich ist. Wie bei den «historischen Kontrollen» können die Wissenschaftler auch hier wieder statistische Adjustierungen und Analysen durchführen, um dafür zu sorgen, dass diese Gleichheit gewährleistet ist. Das funktioniert aber nur dann, wenn relevante Charakteristika der Patienten in den Vergleichsgruppen erfasst und berücksichtigt wurden. Diese Bedingungen sind aber nur sehr selten erfüllt, sodass solche Analysen stets mit einer gewissen Vorsicht zu genießen sind. Ihnen einfach zu glauben kann echte Tragödien auslösen.

Ein aufschlussreiches Beispiel dafür ist die Hormonersatztherapie (HRT). Frauen, die während und nach der Menopause mit HRT behandelt worden waren, wurden mit anscheinend ähnlichen Frauen ohne HRT verglichen. Diese Vergleiche ließen darauf schließen, dass HRT das Herzinfarkt- und Schlaganfallrisiko verringerte: Das wäre eine willkommene Nachricht gewesen, wenn sie sich bewahrheitet hätte. Leider war dies nicht der Fall. Spätere Vergleiche, die vor Beginn der Therapie entwickelt worden waren, um sicherzustellen, dass die Vergleichsgruppen ähnlich sind, ergaben, dass die HRT genau den gegenteiligen Effekt hatte – tatsächlich erhöhte sie die Anzahl der Herzinfarkte und Schlaganfälle (s. Kap. 2, Hormonersatztherapie). In diesem Fall war der offensichtliche Unterschied in den Herzinfarkt- und Schlaganfallraten auf den Umstand zurückzuführen, dass die Frauen mit HRT generell gesünder waren als die Frauen, die keine HRT erhielten – es hatte nichts mit der HRT an sich zu tun. Wissenschaftliche Untersuchungen, bei denen nicht gewährleistet ist, dass Gleiches wirklich mit Gleichem verglichen wird, können dazu führen, dass Zehntausende von Menschen Schaden erleiden.

Wie die Erfahrungen mit der HRT zeigen, wird der Vergleich von Gleichem mit Gleichem am besten dadurch gewährleistet, dass die Vergleichsgruppen noch vor Therapiebeginn zusammengestellt werden. Die Gruppen müssen aus Patienten bestehen, die sich nicht nur im Hinblick auf die bekannten und zu untersuchenden Faktoren wie Alter und Krankheitsschweregrad ähnlich sind, sondern auch in Bezug auf Faktoren, die zwar nicht untersucht werden, die aber dennoch einen Einfluss auf die Genesung von einer Erkrankung ausüben können. Das können die Ernährung, der Beruf und andere soziale Faktoren oder Angst vor der Krankheit oder vor den vom Arzt vorgeschlagenen Behandlungen sein. Es ist immer schwierig und häufig sogar unmöglich, sicher zu sein, dass sich die Behandlungsgruppen ähneln, wenn sie erst nach Therapiebeginn zusammengestellt werden.

Die kritische Frage lautet also: Spiegeln Unterschiede in den Behandlungsergebnissen Unterschiede in den Wirkungen der miteinander verglichenen Behandlungen wider oder Unterschiede zwischen den Patienten in den Vergleichsgruppen?

Unverzerrte prospektive Zuteilung zu verschiedenen Therapien

Im Jahre 1854 demonstrierte Thomas Graham Balfour, ein in einem Militärwaisenhaus tätiger Armeearzt, wie man Behandlungsgruppen bilden kann, um zu gewährleisten, dass Gleiches mit Gleichem verglichen wird. Balfour wollte herausfinden, ob das aus der Schwarzen Tollkirsche gewonnene «Belladonna», wie manche Leute behaupteten, Kinder vor Scharlach schützen könne. Um also «zu vermeiden, dass ihm Selektion unterstellt würde», wie er es formulierte, teilte er die Kinder abwechselnd (alternierend) entweder der Gruppe zu, die das Medikament erhalten sollte, oder der Gruppe, die das Medikament nicht erhielt. [5] Die Anwendung dieser alternierenden Zuteilung (Allokation) oder irgendeiner anderen unverzerrten Art der Vergleichsgruppenbildung gehört zu den Schlüsselmerkmalen fairer Therapietests. Es erhöht die Wahrscheinlichkeit, dass sich die Vergleichsgruppen ähnlich sind, und zwar nicht nur hinsichtlich der bekannten und zu untersuchenden Faktoren, sondern auch in Bezug auf die nicht untersuchten Faktoren, welche die Genesung von einer Krankheit beeinflussen und für die unmöglich statistische Adjustierungen vorgenommen werden können.

Um eine faire (unverzerrte) Zuteilung zu verschiedenen Therapien zu erreichen, müssen diejenigen, die solche fairen Tests entwerfen, unbedingt dafür sorgen, dass Ärzte und Patienten nicht wissen oder vorhersehen können, wie die nächste Zuteilung aussehen wird. Wenn sie diese Zuteilung nämlich kennen, könnten sie – bewusst oder unbewusst – in Versuchung kommen, eine bestimmte Therapie auszuwählen. Wenn ein Arzt beispielsweise weiß, dass der nächste für die Teilnahme an einer klinischen Studie vorgesehene Patient ein Placebo (eine Scheinbehandlung) erhalten wird, könnte er versuchen, einen schwerer erkrankten Patienten von der Teilnahme an der Studie abzubringen, und auf einen weniger kranken Patienten warten. Selbst wenn also ein unverzerrtes Zuteilungsschema erstellt wurde, findet eine unverzerrte Zuteilung zu den Behandlungsgruppen nur statt, wenn die anstehenden Zuteilungen in diesem Schema erfolgreich vor den Personen geheim gehalten werden, die darüber entscheiden, ob ein Patient an der Studie teilnimmt oder nicht. Auf diese Weise kann niemand vorhersagen, welche Behandlung als nächstes zugeteilt wird, und es wird niemand dazu verführt, vom unverzerrten Zuteilungsschema abzuweichen.

Diese verdeckte Behandlungszuteilung wird normalerweise erstens durch die Erstellung von Zuteilungsschemata erreicht, die weniger vorhersehbar sind als die einfache wechselweise Zuordnung – zum Beispiel dadurch, dass die Zuteilung auf Zufallszahlen beruht – und zweitens durch Geheimhaltung dieses Schemas. Um die Zuteilungsschemata geheim zu halten, kann man verschiedene Methoden anwenden. So kann die Zufallszuteilung beispielsweise bei einem Patienten, der sich für die Teilnahme an der Studie eignet, «aus der Ferne» – d. h. per Telefon oder Computer – erfolgen (Abb. 8). Eine weitere Möglichkeit stellt die Verwendung einer Serie von nummerierten Umschlägen dar, die jeweils eine Zuteilung enthalten. Ist ein Patient für die Teilnahme geeignet, wird jeweils der nächste Umschlag in dieser Serie geöffnet, um zu sehen, welcher Gruppe er zugeteilt wird. Damit dieses System funktioniert, müssen die Umschläge undurchsichtig sein, damit die Ärzte nicht «schummeln » können, indem sie den Umschlag gegen das Licht halten, um die Zuteilung darin zu erkennen.

Dieses Vorgehen gilt heutzutage als wesentliches Merkmal fairer Therapietests. Studien, in denen für die Zuteilung zu den Therapien das Zufallsprinzip verwendet wird, heißen «randomisierte Studien» (s. Kap. 3, Verstümmelnde Operationen, Kasten Randomisierte Zuteilung – eine einfache Erklärung).

Abbildung 8: Verdeckung der Behandlungszuteilung in einer Studie durch telefonische Randomisierung.

Abbildung 8: Verdeckung der Behandlungszuteilung in einer Studie durch telefonische Randomisierung.

Möglichkeiten der unverzerrten (zufälligen) Zuteilung in Therapievergleichen

Die Zufallszuteilung zu Therapievergleichen kann unterschiedlich eingesetzt werden (Abb. 9). So kann sie zum Beispiel dazu verwendet werden, um unterschiedliche Therapien, die derselbe Patient zu unterschiedlichen Zeiten in einer zufälligen Reihenfolge erhält, miteinander zu vergleichen – in diesem Fall spricht man von einer «randomisierten Studie mit Crossover-Design». Um beispielsweise zu beurteilen, ob einem einzelnen Patienten mit anhaltendem trockenem Husten die Inhalation eines Medikaments hilft, könnte die Studie für die Dauer von mehreren Monaten angelegt werden. In einigen zufällig ausgewählten Wochen würde der Patient einen medikamentenhaltigen Inhalator benutzen, und während der übrigen Wochen bekäme er einen identisch aussehenden Inhalator, der kein Medikament enthält. Die Erkenntnisse aus der Forschung auf diese Weise maßgeschneidert auf einzelne Patienten anzuwenden, ist, falls machbar, natürlich wünschenswert. Aber es gibt auch viele Situationen, in denen solche Crossover-Studien einfach nicht möglich sind. So kann man beispielsweise weder unterschiedliche chirurgische Eingriffe auf diese Weise miteinander vergleichen, noch die Behandlungen bei einmaligen akuten Gesundheitsproblemen wie z. B. starken Blutungen nach einem Autounfall.

Die Zufallszuteilung kann auch dazu eingesetzt werden, um verschiedene Therapien zu vergleichen, die bei demselben Patienten an unterschiedlichen Körperteilen angewendet werden. Bei einer Hautkrankheit etwa wie einem Ekzem oder der Schuppenflechte (Psoriasis) kann nach dem Zufallsprinzip ausgewählt werden, welche der befallenen Hautflächen mit einer medikamentenhaltigen Salbenzubereitung behandelt werden sollen und welche mit einer Salbenzubereitung ohne aktive Wirkstoffe. Oder bei der Behandlung einer beidseitigen Augenerkrankung könnte ein Auge nach dem Zufallsprinzip zur Behandlung ausgewählt und das Ergebnis anschließend mit dem unbehandelten Auge verglichen werden.

Abbildung 9: Verschiedene Möglichkeiten der randomisierten Zuteilung.

Abbildung 9: Verschiedene Möglichkeiten der randomisierten Zuteilung.

Eine weitere Anwendung der Zufallszuteilung ist der Vergleich unterschiedlicher Therapien, die verschiedene Populationen oder Personengruppen erhalten, beispielsweise alle Personen, die bestimmte Grundversorgungskliniken oder Krankenhäuser aufsuchen. Solche Vergleiche nennt man «cluster- (oder gruppen-) randomisierte Studien». Um beispielsweise die Auswirkungen des allgemeinen Krankenversicherungsprogramms in Mexiko zu beurteilen, untersuchten Wissenschaftler nach der Matched-Pairs-Technik 74 vergleichbare (gematchte) Patienten-Paare aus den medizinischen Einzugsgebieten – Cluster, die zusammen 118000 Haushalte in sieben Bundesstaaten repräsentierten. Pro gematchtem Paar wurde nach dem Zufallsprinzip jeweils einer dem Versicherungsprogramm zugeteilt. [6]

Die bei weitem häufigste Anwendung der Zufallszuteilung dient jedoch der Entscheidung, welcher Patient welche Behandlung erhalten soll.

Nachverfolgung aller Teilnehmer an Therapievergleichen

Nachdem man sich die Mühe gemacht hat, Vergleichsgruppen zusammenzustellen, um zu gewährleisten, dass Gleiches mit Gleichem verglichen wird, ist es wichtig, systematischen Fehlern (Bias) vorzubeugen, die auftreten würden, wenn man bei der Auswertung der Studie diejenigen Patienten ignorieren würde, die einen von der tatsächlichen Planung abweichenden Studienverlauf hatten. Soweit möglich sollten alle den Vergleichsgruppen zugeteilten Patienten nachverfolgt und in der Hauptanalyse der Ergebnisse derjenigen Gruppe berücksichtigt werden, der sie anfangs zugeteilt wurden, unabhängig davon, welche Behandlung sie später (wenn überhaupt) tatsächlich erhalten haben. Dies nennt man eine «Intention-to-Treat »-Analyse. Geschieht dies nicht, ist der Vergleich von Gleichem mit Gleichem nicht mehr gewährleistet.

Auf den ersten Blick mag es unlogisch erscheinen, Gruppen miteinander zu vergleichen, in denen einige Patienten nicht die Therapien erhalten haben, denen sie zugeteilt wurden. Missachtet man diesen Grundsatz jedoch, können die Studien unfair werden und die Ergebnisse in die Irre führen. Patienten beispielsweise, die an einer teilweisen Verstopfung der hirnversorgenden Blutgefäße mit Schwindelanfällen leiden, haben ein überdurchschnittlich hohes Schlaganfallrisiko. Wissenschaftler haben eine Studie durchgeführt, um herauszufinden, ob eine Operation zur Beseitigung der Gefäßverstopfung bei diesen Patienten die Zahl späterer Schlaganfälle verringern kann. Zu Recht verglichen sie alle Patienten, die der Operation zugeteilt worden waren, und zwar unabhängig davon, ob sie den Eingriff überlebten oder nicht, mit all den Patienten, die der Gruppe ohne Operation zugeteilt worden waren. Hätten sie die Häufigkeit der Schlaganfälle nur bei den Patienten erfasst, welche die unmittelbaren Auswirkungen der Operation überlebten, hätten sie die wichtige Tatsache übersehen, dass die Operation selbst einen Schlaganfall verursachen und zum Tod führen kann und dass unter sonst gleichen Umständen bei den überlebenden Patienten in dieser Gruppe weniger Schlaganfälle auftreten. Das wäre ein unfairer Test der Operationswirkungen gewesen, weil deren Risiken mit in die Bewertung einfließen müssen.

Die in der Abbildung 10 dargestellten Ergebnisse der operativen und der medikamentösen Therapie sind tatsächlich gleichwertig. Wenn jedoch die beiden der Operation zugeteilten Personen vor dem Eingriff versterben und bei der Auswertung unberücksichtigt bleiben, wird der Vergleich der beiden Gruppen verzerrt. Er würde fälschlich darauf schließen lassen, dass die Operation besser ist.

Abbildung 10: Warum alle randomisierten Patienten im Endergebnis berücksichtigt werden sollten («Intention-to-Treat»).

Abbildung 10: Warum alle randomisierten Patienten im Endergebnis berücksichtigt werden sollten («Intention-to-Treat»).

Wie man mit Abweichungen von der Behandlungszuteilung umgeht

Aus all den bisher in diesem Kapitel genannten Gründen wird deutlich, dass faire Therapietests sorgfältig geplant werden müssen. Die Dokumente, in denen diese Pläne ausgeführt werden, nennt man Studienprotokolle. Doch selbst die besten Pläne funktionieren nicht immer wie beabsichtigt: Manchmal weichen die Therapien, welche die Patienten tatsächlich erhalten, von den ursprünglich zugeteilten Therapien ab. Beispielsweise kann es vorkommen, dass Patienten die Behandlungen nicht wie vorgesehen durchführen oder dass eine der Behandlungen nicht verabreicht wird, weil das benötigte Material oder das Personal dafür nicht verfügbar sind. Wenn solche Diskrepanzen bemerkt werden, muss man die Folgen berücksichtigen und umsichtig darauf eingehen.

Während der 1970er- und 1980er-Jahre erzielte man bemerkenswerte Fortschritte in der Behandlung von Kindern mit akuter lymphatischer Leukämie, dem in dieser Altersgruppe am häufigsten vorkommenden Leukämietyp. Allerdings war es ein Rätsel, warum amerikanische Kinder dabei erheblich besser abschnitten als britische Kinder, die allem Anschein nach exakt dieselbe Medikamentenabfolge erhielten. [7] Bei einem Besuch in einem kalifornischen Kinderkrebszentrum stellte ein aufmerksamer britischer Statistiker fest, dass amerikanische Kinder mit Leukämie deutlich «aggressiver » mit Chemotherapie behandelt wurden als die betroffenen Kinder in Großbritannien. Die Therapie hatte fürchterliche Nebenwirkungen (Übelkeit, Infektion, Anämie, Haarausfall usw.). Wenn diese Nebenwirkungen für die Kinder allzu belastend wurden, dann neigten britische Ärzte und Krankenschwestern im Gegensatz zu ihren amerikanischen Kollegen dazu, die verordnete Therapie zu reduzieren oder zu pausieren. Dieses «sanftere Vorgehen» schien die Wirksamkeit der Therapie verringert zu haben und war wahrscheinlich ein Grund für den unterschiedlichen Behandlungserfolg in Amerika und Großbritannien.

Den Patienten bei der Befolgung der zugeteilten Therapien helfen

Auch in anderer Hinsicht kann es zu Abweichungen zwischen den beabsichtigten und den tatsächlich verabreichten Behandlungen kommen, welche die Auswertung von Therapietests erschweren können. Den Teilnehmern an wissenschaftlichen Studien sollten medizinisch notwendige Behandlungen nicht vorenthalten werden. Wenn eine neue Therapie mit erhofften, aber unbewiesenen günstigen Wirkungen in einem fairen Test untersucht wird, sollte man deshalb allen teilnehmenden Patienten versichern, dass sie in jedem Fall alle bewährte und wirksame Therapien erhalten.

Wenn man weiß, wer in einer Studie wie behandelt wird, können sich daraus mehrere systematische Fehler ergeben. Ein solcher Fehler ist z. B., dass Patienten und Ärzte das Gefühl haben können, dass Teilnehmer, die der «neuen» Therapie zugeteilt sind, Glück haben, und dies kann sie unbewusst zu einer Überbewertung der Vorzüge dieser Therapie verleiten. Andererseits sind Patienten und Ärzte vielleicht der Meinung, dass die den «älteren» Therapien zugeteilten Teilnehmer benachteiligt sind, sodass ihre Enttäuschung dazu führen kann, dass sie etwaige positive Effekte unterbewerten. Das Wissen um die Zuteilung der Behandlungen kann Ärzte zudem dazu veranlassen, den Patienten, die den älteren Therapien zugeteilt wurden, eine zusätzliche Behandlung oder Pflege angedeihen zu lassen, um sie gewissermaßen für die Tatsache zu entschädigen, dass sie nicht einer der neueren, wenn auch ungeprüften Therapien zugeteilt wurden. Solche zusätzlichen Behandlungen bei Patienten in der einen, aber nicht in der anderen Vergleichsgruppe anzuwenden, erschwert die Beurteilung einer neuen Therapie und birgt die Gefahr, dass der Vergleich dadurch unfair wird und die Ergebnisse verfälscht werden. Eine Möglichkeit, wie man Unterschiede in Vergleichen zwischen beabsichtigten und tatsächlich verabreichten Therapien vermindern kann, ist dafür zu sorgen, dass die neueren und älteren Therapien möglichst gleich aussehen, gleich schmecken und gleich riechen.

Und genau das passiert beim Vergleich zwischen einer Therapie mit erhofften nützlichen Wirkungen und einer Therapie ohne aktive Wirkstoffe (einer Scheinbehandlung oder einem Placebo), die genauso aussieht, riecht, schmeckt und sich anfühlt wie die «richtige » Therapie. Ein solches Vorgehen nennt man «Verblindung» oder «Maskierung». Wenn diese «Verblindung» erreicht werden kann (und es gibt viele Fälle, in denen das nicht möglich ist), dann unterscheiden sich die Patienten in den beiden Vergleichsgruppen im Grunde nur in einer Hinsicht – und zwar darin, ob sie der neuen Therapie oder der Therapie ohne aktive Wirkstoffe zugeteilt wurden. Dadurch können auch die Ärzte und Pflegekräfte, die die Studienteilnehmer versorgen, weniger gut erkennen, ob ihre Patienten die neue Therapie erhalten oder nicht. Wenn weder Ärzte noch Patienten wissen, welche Therapie verabreicht wird, spricht man von einer «Doppelblindstudie». Infolgedessen haben die Patienten in beiden Vergleichsgruppen eine ähnlich starke Motivation, die ihnen zugeteilte Behandlung zu befolgen. Zudem nimmt auch die Wahrscheinlichkeit zu, dass die Ärzte, die sich um sie kümmern, alle Patienten gleich behandeln.