Zahnaerztliche Mitteilungen Nr. 10

GESELLSCHAFT | 67 traten dagegen bei Fällen auf, in denen Selbstversorgung ausreichend gewesen wäre: 70 Prozent aller Fehler entfielen auf diese Gruppe. Kein einziger dieser 13 Fälle wurde von allen Modellen in allen Durchläufen korrekt gelöst. Nur einzelne Modelle, etwa o4, o3 oder GPT 5, empfahlen überhaupt jemals Selbstversorgung. Bei allen anderen getesteten Modellen wurde durchgängig zur ärztlichen Abklärung geraten. Die Modelle tendieren damit laut Forschenden zu einem „konservativen Triagierungsverhalten“, was bedeutet, dass sie Beschwerden häufig als behandlungsbedürftiger einstufen, als medizinisch notwendig wäre. Diese systematische Übervorsicht führe dazu, dass die Modelle zwar selten riskante Untertriagierungen vornehmen, gleichzeitig aber kaum echte Entscheidungshilfe bieten. Inkonsistente Empfehlungen bei identischen Eingaben Hinzu kommt laut den Forscherinnen und Forschern ein weiteres Problem: Die Modelle antworten nicht durchgängig konsistent. Selbst bei identischen Eingaben variieren die Empfehlungen teils erheblich. Besonders bei neueren Modellen zeigte sich, dass identische Fälle unterschiedlich bewertet wurden. So waren bei GPT 5 in 42 Prozent aller Fälle die Empfehlungen bei mehrfacher Eingabe desselben Falls mal richtig und mal falsch – ein Umstand, der die Verlässlichkeit im praktischen Einsatz zusätzlich einschränkt. Begrenzter Nutzen für die Patientensteuerung Aus Sicht der Forschenden liegt die zentrale Schwäche damit weniger in einzelnen Fehlentscheidungen als im fehlenden praktischen Nutzen. „Wenn ein System in der Praxis überwiegend zur ärztlichen Abklärung rät, entsteht kaum ein echter Steuerungseffekt – unnötige ärztliche Inanspruchnahme kann dann sogar zunehmen“, schlussfolgern die Forschenden. Sie weisen zugleich darauf hin, dass der Fokus dieser Studie auf Bevölkerungsrepräsentativität lag. Da echte Notfälle im Alltag selten sind und dementsprechend auch seltener bei der Nutzung von ChatGPT auftreten, enthielt auch der Datensatz nur wenige Notfälle und untersuchte hauptsächlich Entscheidungen für oder gegen das Aufsuchen von ärztlicher Hilfe. Die Genauigkeit bei der Erkennung von echten Notfällen sollte in weiteren Studien untersucht werden. nb Kopka, M., He, L. & Feufel, M.A., Evaluating the accuracy of ChatGPT model versions for giving careseeking advice. Commun Medicine (2026). https:// www.nature.com/articles/s43856-026-01466-0 zm116 Nr. 10, 16.05.2026, (829) BEFRAGUNG DER STIFTUNG DEUTSCHE DEPRESSIONSHILFE JEDER DRITTE JUNGE MENSCH NUTZT KI ALS PSYCHO-COACH Immer mehr jüngere Menschen mit Depression greifen auf Künstliche Intelligenz (KI) als Gesprächspartner zurück. Laut einer aktuellen, repräsentativen Befragung der Stiftung Deutsche Depressionshilfe unter 2.500 Personen im Alter von 16 bis 39 Jahren nutzt etwa jeder Dritte KI, um über seine Erkrankung zu sprechen. Rund 10 Prozent führen dabei längere, dialogische Gespräche – ähnlich wie mit einem menschlichen Gegenüber. Die am häufigsten genutzten KI-Modelle waren ChatGPT (77 Prozent), Gemini (14 Prozent) und Microsoft Copilot (4 Prozent). Die Motive sind vielfältig: Über die Hälfte der Betroffenen (56 Prozent) gibt an, einfach „mit jemandem“ über ihre Probleme sprechen zu wollen. 46 Prozent erhoffen sich zudem, ihre Symptome besser selbst bewältigen zu können. 41 Prozent gaben an, gezielt nach Aufmunterung und Zuspruch zu suchen. Ähnlich viele Befragte (40 Prozent) informieren sich mithilfe von KI über Behandlungs- und Therapiemöglichkeiten. Entsprechend positiv fallen die Rückmeldungen aus: Die Mehrheit (85 Prozent) empfindet die KI als verständnisvoll (92 Prozent) und respektvoll (89 Prozent), viele berichten von einem gestärkten Gefühl nach den Gesprächen (75 Prozent). Gleichzeitig zeigen die Ergebnisse auch, dass mehr als die Hälfte der Befragten (57 Prozent) es als belastend empfand, mit einem nicht-menschlichen Gegenüber zu kommunizieren. Besonders alarmierend sei laut der Stiftung, dass 53 Prozent der Befragten nach der Nutzung vermehrt Gedanken an Selbstverletzung oder Suizid angab. Besonders kritisch sehen die Expertinnen und Experten, dass 62 Prozent der Befragten KI als Alternative zu einer Behandlung wahrnehmen und warnen eindringlich vor einer solchen Fehleinschätzung. „KI ersetzt weder eine professionelle Diagnostik – etwa mit Laboruntersuchungen zum Ausschluss einer Schilddrüsenüberfunktion – noch stellt sie eine leitliniengerechte Behandlung dar. Die antidepressive Wirksamkeit und mögliche unerwünschte Folgen sind kaum erforscht“, sagt Prof. Ulrich Hegerl, Vorstandsvorsitzender der Stiftung Deutsche Depressionshilfe. „Depression ist eine schwere, oft lebensbedrohliche Erkrankung. Betroffene sollten sich unbedingt weiterhin an Hausärzte, Psychiater oder Psychologische Psychotherapeuten wenden“, betont Hegerl abschließend. „Wenn ein System bei sehr vielen Beschwerden vorsorglich zur medizinischen Abklärung rät, wirkt das zunächst sicher für Nutzerinnen und Nutzer – es bietet aber faktisch keine echte Entscheidungshilfe mehr, wenn die Empfehlung fast immer gleich ausfällt.“ Studienautor Dr. Marvin Kopka

RkJQdWJsaXNoZXIy MjMxMzg=