72 | GESELLSCHAFT KI ÜBERZEUGT BEI DIAGNOSEQUALITÄT UND EMPATHIE Passt ein guter Arzt bald in die Hosentasche? Im Mittelpunkt der Medizin steht der Arzt-Patienten-Dialog, in dem „eine sorgfältige Anamnese den Weg für eine genaue Diagnose, ein effektives Management und dauerhaftes Vertrauen ebnet". Mit diesen Worten leiten die Autoren eine womöglich bahnbrechende Studie ein. 46 Seiten später ist klar: Ihr KI-System übertrifft in einem ersten Test echte Ärztinnen und Ärzte in Diagnosequalität und Empathie. Das System AMIE (Articulate Medical Intelligence Explorer) verwendet eine neuartige, simulierte Umgebung mit automatisierten Feedbacks, um das Lernen über Krankheitszustände, Fachgebiete und Kontexte hinweg zu skalieren, erläutern die Forschenden in ihrem Preprint, über das auch das Wissenschaftsmagazin Nature berichtet. Das System wurde unter Verwendung vieler Datensätze aus der realen Welt entwickelt, darunter Multiple-Choice-Antworten auf medizinische Fragen, von Experten kuratierte medizinische LangformArgumentationen, Zusammenfassungen von Notizen aus elektronischen Patientenakten und transkribierten Arzt-Patienten-Gesprächen. Konkret wurde zum Training des „medizinischen Denkens“ der KI ein Satz aus 11.450 Multiple-Choice-Fragen des US-amerikanischen „Medical Licensing Examination"-Systems mit vier oder fünf möglichen Antworten verwendet. Zum Erlernen ausführlicher Antworten wurde die KI auch mit einem Datensatz gespeist, der von 65 Ärzten verfasste Zusammenfassungen medizinischer Notizen sowie eine große, öffentlich zugängliche Datenbank mit Krankenakten von Patienten auf der Intensivstation enthielt. Der Datensatz umfasste etwa zwei Millionen Notizen aus 13 Bereichen, darunter Kardiologie, Pneumologie, Radiologie, Allgemeinmedizin, aber auch Entlass- und Fallmanagement, Beratung, Krankenpflege, Pharmazie, Ernährung, Rehabilitation und Sozialarbeit. KI im Trainingslager für „medizinisches Denken“ Um die Dialogfähigkeiten der KI zu schulen, verwendeten die Forschenden einen anonymisierten US-Datensatz aus 98.919 Audiotranskripten von medizinischen Gesprächen während persönlicher Besuche bei mehr als 1.000 Klinikern. Die Daten bildeten einen Zeitraum von zehn Jahren ab und umfassten 51 medizinische Fachgebiete (etwa Primärversorgung, Rheumatologie, Hämatologie, Onkologie, Innere Medizin und Psychiatrie), 168 Erkrankungen und Besuchsgründe. Die Audiotranskripte enthielten Äußerungen von Ärzten, Patienten und Krankenschwestern. Für jedes Gespräch gab es Metadaten über die Demografie des Patienten, den Grund für den Besuch (Nachsorge bei Vorerkrankungen, akute Bedürfnisse, jährliche Untersuchung und mehr) sowie die Art der Diagnose. Um Limitationen der Rohdaten auszugleichen, schufen die Forschenden eine simulierte Lernumgebung für diagnostische medizinische Dialoge. „Wir nutzten diese Umgebung, um AMIE iterativ mit einem sich entwickelnden Satz simulierter Dialoge zu optimieren“, schreiben sie. So sei ein Skillset entstanden, das weit über den statischen Korpus aus medizinischen Frage-Antwort-, Argumentations-, Zusammenfassungs- und Dialogdaten hinausreicht. Um die Qualität der Expertise in der Anamnese, einschließlich der Kommunikationsfähigkeiten in der Konsultation zu beschreiben, leiteten sie einen Bewertungsrahmen aus Standards ab und führten Interviews mit Klinikern und Prüfern in Großbritannien, Kanada, den USA und Indien. Der daraus resultierende Rahmen ermöglichte die Bewertung aus der Perspektive von Klinikern wie auch aus der von Patienten. zm114 Nr. 03, 01.02.2024, (174) DIE KI WURDE IN KANADA, GROẞBRITANNIEN UND INDIEN GETESTET Getestet wurde das System in 149 Fallszenarien von klinischen Anbietern in Kanada, Großbritannien und Indien. Dazu führten jeweils ein Hausarzt und AMIE in randomisierter Reihenfolge eine virtuelle objektive strukturierte klinische Untersuchung (OSCE) eines Schauspielpatienten über einen synchronen OnlineText-Chat durch. Anschließend wurden die Chatverläufe und Dokumentationen von Fachärzten und die Konsultationen von den Patienten bewertet. Sowohl die Hausärzte als auch die Simulationspatienten hatten vorab anhand von Beispielszenarien und Anweisungen die Möglichkeit, sich auf die Chat-Tools vorzubereiten. Die Schauspieler-Patienten wurden nicht darüber informiert, mit wem sie in der Konsultation sprachen. Die Hausärzte wurden nach dem Zufallsprinzip auf der Grundlage der Verfügbarkeit ausgewählt. Die Schauspieler spielten das Szenario durch und wurden angewiesen, das Gespräch nach spätestens 20 Minuten zu beenden.
RkJQdWJsaXNoZXIy MjMxMzg=