Zahnärztliche Mitteilungen Nr. 7

zm112, Nr. 7, 1.4.2022, (669) dieser Experte hat dann jedoch nur eine bestimmte Genauigkeit und irrt sich (leider) des Öfteren. Daher werden oftmals mehrere unabhängige Experten befragt; für viele Studien im Bereich der Röntgenbildanalyse annotierten beispielsweise drei bis fünf Experten jedes von mehreren Tausend Bildern (Abbildung). Wie wird nun aus fünf Meinungen aber die eine Dateninformation, an der das Modell lernen soll? Oftmals geschieht dies durch ein Mehrheitsvotum; dieses garantiert zwar nicht, dass die schlussendlich festgelegte Dateninformation korrekt ist, reduziert jedoch die Wahrscheinlichkeit von Fehlern. Es ist demnach jedoch zentral, eine hohe Annotationsgüte (Erfahrung und Qualitätsstufe der Experten, Anzahl der Experten, Anzahl der Bilder) anzustreben: Ein KI-Modell wird immer nur so gut sein können, wie der Datensatz, an dem es trainiert wurde. Ein erfolgreich trainiertes und bewiesenermaßen generalisierbares KI-Modell kann seinen Anwendern das kollektive Wissen und die zahnärztliche Expertise aller annotierenden Kollegen zur Verfügung stellen – im Sinne einer robusten Zweitmeinung. Ein Wort der Warnung bleibt aber: Die KI hatte beim Lernen nur das Bild zur Verfügung – nicht den ganzen Patienten! Die Anwender in der Praxis haben hingegen die intraorale Inspektion, etwaige weitere klinische Unterschungsmethoden oder sogar zusätzliche Bildgebungen zur Hand – und sollten diese bei Bedarf auch nutzen, um die KI-Meinung zu kontrollieren. STATISCHE ODER DYNAMISCHE KI? Medizinische KI unterscheidet sich von anderen KI-Anwendungen durch die Art des Trainings. Google lernt etwa, wie Ampeln oder Bäume aussehen, indem jeder Internetnutzer (allesamt also Laien) diese auf Bildern markieren. Dabei ist davon auszugehen, dass diese Information nahezu fehlerfrei ist; kann sie doch durch einen Laien fast immer korrekt durchgeführt werden – jedes Bild muss vermutlich auch nur einmal angeschaut werden. Im Ergebnis kann Google günstig und schnell KI entwickeln, die Hunde und Katzen sowie Tausende weitere Tierarten auf Bildern mit höchster Genauigkeit erkennen kann. Zudem kann ein solches Modell stets weiterverbessert werden, wenn Nutzer einer solchen Tierklassifikationssoftware etwaige Fehler in der Routinenutzung korrigieren – man spricht von dynamischer KI. Medizinische KI-Anwendungen zu entwickeln ist hingegen aufwendiger, teurer und die entwickelten Modelle sind auf absehbare Zeit auch nicht fehlerfrei. Zudem wird oft auf ein „Weiterlernen“ in der Routine verzichtet: Würde eine durch Spezialisten trainierte KI-Anwendung an etwaigen Korrekturen, die weniger spezialisierte Kollegen in ihrer Praxis vornehmen, lernen, wäre sie schlussendlich nach einiger Zeit genauso gut wie der durchschnittliche Nutzer – das aufwendig erworbene Expertenwissen ginge verloren. Um dies zu verhindern, sind viele medizinische KI-Anwendungen nicht weiterlernend (dynamisch), sondern statisch. Das bedeutet, dass Nutzer die KISoftware nicht trainieren können – die landläufige Vorstellung, dass die Nutzer durch ihre Interaktionen die Softwarequalität weiterentwickeln, trifft also auf die statische KI-Anwendung nicht zu. FAZIT Um die Qualität einer KI-Software beurteilen zu können, sollten gezielt Informationen vom Anbieter abgefragt werden. Dazu gehören beispielsweise auch Informationen zu den annotierenden Experten, deren Expertise in die KI eingeflossen ist, sowie zum Annotationsprozess. Die medizinischen Daten sollten durch mindestens drei Experten annotiert worden sein. Auch sollte klar sein, wie die Annotationen dieser drei Experten schlussendlich „vereinigt“ wurden. Ein statisches Modell konserviert das Wissen der annotierenden Spezialisten. Es wird nicht von selbst besser, kann aber auch nicht während der Routinenutzung schlechter werden (ein dynamisches Modell ist jeden Tag etwas anders). Auch statische Modelle werden allerdings in vielen Fällen durch ein Update regelmäßig verändert – allerdings eben kontrolliert und oft nur in Richtung Verbesserung. \ Abb. 1: Experten trainieren KI-Software zur Kariesdetektion: Verschiedene Untersucher (Farben) markieren kariöse Läsionen auf einem Röntgenbild. Sowohl das Vorhandensein einer Läsion als auch die Ausdehnung wird uneinheitlich bewertet. Zur Vereinheitlichung dieser „Annotationen“ im Lernprozess der KI gibt es verschiedene Strategien: Es können jegliche markierte Pixel als krank angenommen werden („Union“) oder nur jene Pixel, bei denen zwei oder drei Untersucher sich einig waren („Intersection“). Teilweise wird auch ein Reviewprozess eingesetzt, bei dem ein weiterer Experte alle Markierungen bewertet und teilweise korrigiert/angleicht, oder eine Kombination der Verfahren. Quelle: Falk Schwendicke DR. RER. NAT. JOACHIM KROIS Abteilung für Orale Diagnostik, Digitale Zahnheilkunde und Versorgungsforschung, CharitéCentrum 3 für Zahn-, Mundund Kieferheilkunde, Charité – Universitätsmedizin Berlin Aßmannshauser Str. 4–6, 14197 Berlin Foto: privat ZAHNMEDIZIN | 79

RkJQdWJsaXNoZXIy MjMxMzg=