ChatGPT-4o vs. rzte KI erreicht 82 % bei Diagnosen – Studie eröffnet neue Perspektiven für die Medizin

5. Juni 2026 um 06:24·Hendrik Schneider

LGR Reutlingen – 05 Juni 2026 | Eine aktuelle klinische Untersuchung aus Mailand wirft ein neues Licht auf das Spannungsfeld zwischen menschlicher Expertise und künstlicher Intelligenz: ChatGPT-4o vs. rzte KI erreicht 82 bei Diagnosen. Die im Fachjournal npj Digital Medicine veröffentlichte Studie analysierte 100 reale Fälle von Polyneuropathie, einer komplexen Erkrankung des peripheren Nervensystems, und verglich die Leistungen von ChatGPT‑4o mit denen von Fachärzten und Allgemeinmedizinern. Das Ergebnis: In der Differenzialdiagnose erreichte die KI beeindruckende 82 % Trefferquote – ein Wert, der selbst erfahrene Allgemeinmediziner übertrifft.

ChatGPT-4o vs. rzte KI erreicht 82 bei Diagnosen – Was die Zahlen bedeuten

Die Forschenden teilten die Diagnoseleistung in drei Kategorien ein: Erstdiagnose, Differenzialdiagnose und Empfehlung geeigneter Tests. Bei der Erstdiagnose lag ChatGPT‑4o mit 65,5 % zwischen den 63,0 % der Nicht‑Spezialisten und den 74,0 % der Fachärzte. Der eigentliche Knackpunkt war die Differenzialdiagnose, wo die KI mit 82,0 % nicht nur die Allgemeinmediziner (77,5 %) überholte, sondern sich auch mit den Spezialisten messen konnte. Noch bemerkenswerter war die Fähigkeit, passende Zusatzuntersuchungen zu empfehlen – 68 % der Fälle wurden korrekt identifiziert, verglichen mit 53 % bei nicht spezialisierten Ärzten.

Ein weiteres Ergebnis verdeutlicht den potenziellen Kooperationsgewinn: Sobald Nicht‑Spezialisten die KI‑Vorschläge überprüften, stieg ihre eigene Diagnosegenauigkeit in 21,8 % der Fälle. Dieser „Co‑Pilot“-Effekt legt nahe, dass KI nicht nur als Ersatz, sondern als ergänzendes Werkzeug im klinischen Alltag fungieren kann.

Methodik im Blick

Die Studie wurde von einem interdisziplinären Team um Dr. Laura Bianchi von der Università degli Studi di Milano geleitet. Die 100 Fälle wurden aus anonymisierten Patientenakten ausgewählt und sowohl von ChatGPT‑4o als auch von drei Gruppen von Ärzten beurteilt: Allgemeinmediziner, Fachärzte für Neurologie und Ärzte ohne Spezialisierung auf Neuropathien. Die KI wurde über das OpenAI‑Interface mit den relevanten klinischen Daten gefüttert, wobei keine zusätzlichen Trainingsdaten speziell für Polyneuropathie verwendet wurden – ein Hinweis darauf, dass das Modell bereits ein breites medizinisches Grundverständnis besitzt.

Die Evaluierung erfolgte nach etablierten Standards: Korrekt zugeordnete Hauptdiagnosen wurden als Treffer gewertet, während Fehldiagnosen und „Halluzinationen“ (erfundene Fakten) sanktioniert wurden. In 10.000 Testdurchläufen eines separaten Labors der Binghamton University wurden neu entwickelte Protokolle zur Vermeidung von Halluzinationen eingesetzt, wodurch die Fehlerrate auf null gesenkt werden konnte.

Implikationen für die Praxis und das Vertrauen der Öffentlichkeit

Trotz der technischen Fortschritte bleibt das Vertrauen der Bevölkerung ein kritischer Faktor. Der Edelman‑Vertrauensbarometer aus dem vergangenen Jahr dokumentierte einen Rückgang des Vertrauens in KI‑generierte Gesundheitsinformationen von 77 % auf 63 % in den USA. Laut einer Pew‑Research‑Umfrage von Oktober 2025 nutzen lediglich sieben Prozent der Erwachsenen regelmäßig KI‑Chatbots für Gesundheitsfragen, während 59 % noch nie solche Systeme konsultiert haben.

Interessanterweise zeigen die Zahlen aus einer Umfrage unter 803 Amerikanern, dass 55 % ChatGPT nach einem Arztbesuch nutzen, um die erhaltene Diagnose besser zu verstehen. Dennoch geben 74 % an, ihrem menschlichen Arzt mehr zu vertrauen als der Maschine. Diese Diskrepanz zwischen Nutzen und Vertrauen wird von Experten wie Dr. Andrew Parsons von der University of Virginia als Warnsignal betrachtet: “Die KI mag Krankheiten erkennen, aber sie kann keine Behandlung entscheiden. Für Therapieentscheidungen braucht es das individuelle Wissen über Vorerkrankungen, Risiken und Patientenwünsche – das kann kein Modell leisten.”

Die wachsende Zahl von Klagen im Zusammenhang mit generativer KI in den USA – ein Anstieg um 978 % zwischen 2021 und 2025 – verdeutlicht die rechtlichen und ethischen Herausforderungen. Autoren wie Cory Doctorow mahnen vor einer möglichen „24‑Stunden‑Verstörungsmaschine“, die paranoide Vorstellungen schürt, während Eric Lowenstein, CEO von Tego, vor einer „KI‑Monokultur“ warnt, die Systemausfälle begünstigt.

Administrative Anwendungen – ein erster Schritt zur Akzeptanz

Während die Diagnose‑KI noch um Akzeptanz kämpft, finden KI‑gestützte Tools bereits breiten Einsatz im administrativen Bereich. Die Cleveland Clinic meldet, dass rund 4.000 Kliniker ein System zur automatischen Dokumentation von Patientengesprächen nutzen. Bei einer Million erfasster Besuche spart das System durchschnittlich 14 Minuten pro Tag – ein klarer Effizienzgewinn, der den Weg für weitergehende klinische Anwendungen ebnen könnte.

OpenAI hat am 4. Juni sein spezialisiertes Modell GPT‑Rosalind veröffentlicht, das sich auf medizinische Chemie und Genomik fokussiert. Im MedChemBench‑Test erreichte es 27,5 % Genauigkeit, knapp hinter GPT‑5.5. In Partnerschaft mit Novo Nordisk soll das System künftig zur Pandemievorsorge beitragen – ein weiterer Hinweis darauf, dass KI zunehmend als strategischer Partner im Gesundheitssektor angesehen wird.

Ausblick: Wie könnte die Zukunft der medizinischen KI aussehen?

Die vorliegenden Ergebnisse legen nahe, dass KI‑Modelle wie ChatGPT‑4o in absehbarer Zeit nicht mehr nur Hilfsmittel für die Recherche oder das Alltagsmanagement bleiben, sondern aktiv in Diagnoseprozesse eingebunden werden könnten. Die entscheidenden Fragen bleiben jedoch: Wie kann man das Vertrauen der Öffentlichkeit zurückgewinnen? Welche regulatorischen Rahmenbedingungen sind nötig, um Haftungsfragen zu klären? Und wie lässt sich die Gefahr von Halluzinationen und Monokulturen nachhaltig minimieren?

Ein möglicher Weg führt über transparente Validierungsmethoden und offene Datenpools, die es ermöglichen, die Leistung von KI‑Systemen kontinuierlich zu überprüfen. Gleichzeitig könnten Schulungsprogramme für Ärztinnen und Ärzte die Integration von KI‑Vorschlägen in den klinischen Workflow erleichtern und so den beobachteten Kooperations‑Effekt weiter stärken.

Unabhängig davon, ob ChatGPT‑4o in den nächsten Jahren den Status eines reinen Assistenzsystems behält oder sich zu einem eigenständigen Diagnosepartner entwickelt, steht fest: Die Technologie hat bereits ein Niveau erreicht, das in vielen Bereichen mit menschlicher Expertise konkurrieren kann. Für das Gesundheitswesen bedeutet das nicht nur potenzielle Kosteneinsparungen, sondern auch die Chance, Patienten schneller und präziser zu versorgen – vorausgesetzt, die ethischen und gesellschaftlichen Rahmenbedingungen werden zeitnah angepasst.

ChatGPT-4o vs. rzte KI erreicht 82 bei Diagnosen – Was die Zahlen bedeuten

Methodik im Blick

Implikationen für die Praxis und das Vertrauen der Öffentlichkeit

Administrative Anwendungen – ein erster Schritt zur Akzeptanz

Ausblick: Wie könnte die Zukunft der medizinischen KI aussehen?