Zahnaerztliche Mitteilungen Nr. 6

20 | ZAHNMEDIZIN parationsrichtlinien, Adhäsionsprotokolle, die Auswahl und Handhabung von restaurativen Materialien, Polymerisationstechniken, Farbabstimmung, Frontzahn- und Seitenzahnrestaurationen und die Behandlung postoperativer Komplikationen. Hier ist nicht nur sachliches Wissen gefordert, sondern auch fortgeschrittenes klinisches Denken und integrative Denkfähigkeiten, was ihn zu einem Schlüsselbereich für die Beurteilung der klinischen Kompetenz macht. Der Formattyp wurde entweder textbasiert oder bildbasiert klassifiziert, letzterer mit Diagrammen und klinischen Fotografien. Dieses erweiterte Klassifizierungssystem ermöglichte detaillierte Untergruppenanalysen und erleichterte Leistungsvergleiche über verschiedene Bildungskonstrukte und Inputmodalitäten hinweg. Alle Chatbot-Antworten wurden unabhängig voneinander von zwei akademischen Gutachtern mit mindestens fünf Jahren Berufserfahrung bewertet. Jede Antwort wurde gemäß einem offiziellen Antwortschlüssel als korrekt oder falsch eingestuft. Bezüglich der Identität des Chatbots waren die Prüfer verblindet. Alle Diskrepanzen wurden durch Konsens gelöst oder, wenn nötig, von einem dritten Experten entschieden. Ausgewertet wurden drei wichtige Leistungsindikatoren: Genauigkeit, Reaktionslänge und Reaktionszeit. Genauigkeit wurde als Prozentsatz der richtigen Antworten zur Gesamtzahl der Fragen definiert. Die Antwortlänge wurde gemessen, indem jede Chatbot-Ausgabe einzeln in ein separates Textdokument kopiert und die Anzahl der Wörter mit der nativen Wortanzahlfunktion des Dokuments aufgezeichnet wurde. Die Reaktionszeit wurde unter Verwendung einer digitalen Stoppuhr bestimmt, durch Messung der Dauer von dem Moment an, wann die Eingabeaufforderung eingereicht wurde, bis zum Abschluss der Antwort. Ergebnisse Die Analyse ergab, dass sich die acht Chatbots hinsichtlich der Antwortgenauigkeit nicht signifikant unterschieden (p = 0,18). Im Unterschied dazu wurden wesentliche Unterschiede hinsichtlich Wortzahlen und Antwortzeiten (p = 0.000) identifiziert. Gemini Advanced erreichte mit 96,28 Prozent die höchste Genauigkeit, gefolgt von ChatGPT-4o Plus mit 93,62 Prozent, während DeepSeek mit 86,70 Prozent die niedrigste Leistung zeigte. In Bezug auf die Antwortlänge produzierte Gemini 1.5 die umfangreichsten Ergebnisse, während ChatGPT-4o Plus die prägnantesten Antworten generierte. In Bezug auf die Ansprechgeschwindigkeit war Gemini 1.5 die schnellste, während DeepSeek die langsamste Leistung zeigte. Die Genauigkeitsraten waren in textbasierten Fragen im Vergleich zu bildbasierten Fragen deutlich höher. Zum Beispiel erreichte Gemini Advanced in textbasierten Elementen eine Genauigkeit von 96,19 Prozent und ChatGPT-4o Plus 94,02 Prozent, während in bildbasierten Elementen nur Gemini Advanced und ChatGPT-3.5 eine vergleichbare Genauigkeit von 100 Prozent erreichten und die anderen Modelle weiter abgeschlagen in einer Größenordnung zwischen 50 und 75 Prozent richtig lagen. Dieses Ergebnis zeigt deutlich, dass die Fähigkeiten über alle Chatbots hinweg in der visuellen Analyse und Interpretation im Vergleich zu ihren Textverständnisfähigkeiten begrenzt bleiben. Die Antwortzeiten für bildbasierte Fragen waren heterogener; während Copilot und Gemini Advanced sehr schnell reagierten, erforderte ChatGPT-3.5 vergleichsweise längere Zeiten. In textbasierten Fragen lieferte Gemini 1.5 die schnellsten Antworten, während DeepSeek am meisten Zeit benötigte. Diskussion Diese Studie zeigt, dass KI-Chatbots ein erhebliches Potenzial bei der Beantwortung von Prüfungsfragen im Bereich „Restaurative Zahnmedizin“ besitzen. Die Ergebnisse deuten darauf hin, dass alle bewerteten Modelle eine hohe Leistung zeigen, wobei fortschrittliche KI-Chatbots wie Gemini Advanced und ChatGPT-4o Plus aufgrund ihrer überragenden Genauigkeitsraten herausragten. Insbesondere das Gemini-Advanced-Modell erreichte eine beeindruckende Genauigzm116 Nr. 06, 16.03.2026, (398) Wo lässt sich künstliche Intelligenz künftig sinnvoll in der zahnmedizinischen Lehre einsetzen? „Substanzielle Antworten auf diese Frage werden sich erst langsam anhand von Praxiserfahrungen herausbilden“, sagt Prof. Dr. Elmar Hellwig, wissenschaftlicher Beirat der zm. Foto: chinnarach – stock.adobe.com

Made with FlippingBook

RkJQdWJsaXNoZXIy MjMxMzg=