66 | GESELLSCHAFT CHATGPT-EMPFEHLUNGEN BEI GESUNDHEITSFRAGEN Kann KI auch Patientensteuerung? Angesichts der aktuellen gesundheitspolitischen Diskussionen um digitale Patientensteuerung und Primärversorgungssysteme in Deutschland haben Forschende der Technischen Universität Berlin untersucht, ob sich KI-Sprachmodelle für eine digitale Ersteinschätzung und eine eigenständige Patientensteuerung eignen. In einer neuen Studie haben Arbeitswissenschaftler der TU Berlin analysiert, wie genau ChatGPT in verschiedenen Modellversionen gesundheitliche Beschwerden einordnet, wie sich die Leistung im Zeitverlauf verändert hat und ob identische Eingaben konsistente Empfehlungen erzeugen. Das Team um Marvin Kopka untersuchte insgesamt 22 Modellversionen. Grundlage bildeten 45 reale Patientenfälle mit unterschiedlichen Beschwerdebildern – von leichten Beeinträchtigungen wie kurzfristiger muskulärer Überlastung bis hin zu akuten gesundheitlichen Problemen. Jeder Fall wurde pro Modell 10-mal eingegeben, so dass insgesamt 9.900 Einzelbewertungen entstanden. Die Modelle sollten entscheiden, ob es sich um einen Notfall, einen Fall für ärztliche Abklärung oder um Selbstversorgung handelt. „Der Hauptunterschied zu unseren früheren Studien ist die längsschnittliche Analyse. Bisher wurden nur ein oder zwei Modelle untersucht. Nun haben wir alle Modelle, die über die Zeit verfügbar waren, getestet und analysiert, wie sie sich tatsächlich verändert haben“, sagt Studienleiter Kopka. „Das war uns auch deshalb wichtig, weil es immer wieder Meldungen gibt, nach denen neue Modelle in ärztlichen Zulassungsprüfungen oder Wissenstests nahezu perfekte Ergebnisse erreichen. Daraus wird dann schnell geschlossen, dass sie auch für Patientinnen und Patienten verlässliche medizinische Empfehlungen geben.“ Die größten Schwächen gab es bei harmlosen Beschwerden Die Ergebnisse zeigen: Die Genauigkeit stieg mit den ersten Modellversionen zunächst deutlich an. Seit der dritten Modellgeneration (GPT-4) gab es jedoch nur noch geringfügige Verbesserungen. Das beste getestete Modell erreichte eine Treffergenauigkeit von 74 Prozent. Besonders gut waren die getesteten Modelle darin, behandlungsbedürftige Fälle zu erkennen. Die meisten Fehler Laut einer Studie der TU Berlin neigen ChatGPT-Modelle zu übervorsichtigen Empfehlungen. Foto: bongkarn - stock.adobe.com zm116 Nr. 10, 16.05.2026, (828)
RkJQdWJsaXNoZXIy MjMxMzg=