70 | GESELLSCHAFT STUDIE DER TU MÜNCHEN Eignen sich KI-Chatbots fürs Krankenhaus? Large Language Models bestehen medizinische Examen mit Bravour – gelernt ist gelernt. Doch könnten sie auch in einer Notaufnahme anhand von Krankheitssymptomen die richtigen Tests anordnen und am Ende eine korrekte Diagnose stellen, also das Gelernte nicht nur reproduzieren, sondern auch situationsabhängig anwenden? Um das herauszufinden, haben Forschende der Technischen Universität München (TUM) einen Test mit realen Patientendaten entwickelt. Medizin-Chatbots treffen vorschnelle Diagnosen, halten sich nicht an Richtlinien und würden das Leben von Patientinnen und Patienten gefährden. Zu diesem Schluss kommt das Team der TUM, das erstmals systematisch untersucht hat, ob diese Form der Künstlichen Intelligenz (KI) für den Klinikalltag geeignet wäre. Die Forschenden sehen dennoch Potenzial in der Technologie. Sie haben ein Verfahren veröffentlicht, mit dem sich die Zuverlässigkeit zukünftiger Medizin-Chatbots testen lässt. Large Language Models (LLM) sind Computerprogramme, die mit riesigen Mengen Text trainiert wurden. Speziell trainierte Varianten der Technologie, die auch hinter ChatGPT stecken, lösen mittlerweile sogar Abschlussexamen aus dem (Zahn-)Medizinstudium nahezu fehlerfrei (zm 10/2024). Wäre eine solche KI auch in der Lage, die Aufgaben von Ärztinnen und Ärzten in einer Notaufnahme zu übernehmen? Könnte sie anhand der Beschwerden die passenden Tests anordnen, die richtige Diagnose stellen und einen Behandlungsplan entwerfen? Im Fachmagazin Nature Medicine hat sich ein interdisziplinäres Team um Prof. Daniel Rückert dieser Fragestellung gewidmet. Die Datenbasis: 2.400-mal Bauchschmerzen Das aus Ärztinnen, Ärzten und KIFachleuten zusammengesetzte Team untersuchte konkret, wie erfolgreich verschiedene Varianten des OpenSource-Large-Language-Models Llama 2 bei der Diagnose sind. Um die Fähigkeiten der komplexen Algorithmen zu testen, nutzten die Forschenden anonymisierte Daten von Patientinnen und Patienten aus einer Klinik in den USA. Aus einem größeren Datensatz wählten sie 2.400 Fälle aus, alle Betroffenen waren mit Bauchschmerzen in die Notaufnahme gekommen. Die Fallbeschreibung endete jeweils mit einer von vier Diagnosen und einem Behandlungsplan. Zu den Fällen waren alle Daten verfügbar, die für die Diagnose erfasst wurden – von der Krankengeschichte über die Blutwerte bis zu den Bildgebungsdaten. Foto: N F/peopleimages.com - stock.adobe.com zm114 Nr. 15-16, 16.08.2024, (1328) Könnten Large Language Models in einer Notaufnahme anhand von Krankheitssymptomen die richtigen Tests anordnen und am Ende eine korrekte Diagnose stellen? Und das vielleicht sogar besser als „echte“ Ärztinnen und Ärzte?
RkJQdWJsaXNoZXIy MjMxMzg=