GESELLSCHAFT | 23 KI-Tools öffnen der Scheinwissenschaft Tür und Tor: Wer weiß, welche Hypothese er belegen will, und Tools wie GPT-4 zu nutzen versteht, bekommt in Minutenschnelle eine Forschungsarbeit samt Datensatz, die nur mit viel Mühe als Fälschung zu erkennen ist. Foto: KNOPP VISION - stock.adobe.com (generiert mit KI) proben zig wissenschaftliche Paper gefunden, die mithilfe von Künstlicher Intelligenz verfasst wurden, ohne dass dies den Verlagsstatuten entsprechend kenntlich gemacht war (zm berichtete: https://bit.ly/zm_KI). Hinweise darauf wurden beim Peer-Review schlicht übersehen. Fiktiver Datensatz unterstützt beliebige Forschungsfrage Jetzt zeigte ein italienisches Forschungsteam, dass sich mit GPT-4 – also die seit März 2023 verfügbare Version des OpenAI-Sprachmodells – ein kompletter, gefälschter Datensatz erzeugen lässt, der eine formulierte Forschungsfrage stützt [Taloni et al., 2023]. Im konkreten Beispiel verglichen die KI-generierten Daten die Ergebnisse zweier chirurgischer Eingriffe und deuteten zu Unrecht an, dass eine Behandlungsmethode der anderen überlegen war. „Unser Ziel war es, hervorzuheben, dass man in wenigen Minuten einen Datensatz erstellen kann, der nicht von echten Originaldaten gedeckt ist und der der bestehenden Evidenz verfügbarer Daten widerspricht", erklärte Co-Autor Giuseppe Giannaccare gegenüber dem Magazin Nature. Dazu baten die Autoren GPT-4, einen Datensatz zu erstellen, der Menschen mit einer Augenerkrankung namens Keratokonus betraf. Diese verursacht eine Verdünnung der Hornhaut und kann zu einem beeinträchtigten Fokus und schlechter Sicht führen. Für 15 bis 20 Prozent der Menschen mit der Krankheit beinhaltet die Behandlung eine Hornhauttransplantation, die mit einem von zwei Verfahren durchgeführt wird, entweder der Penetrating Keratoplasty (PK) oder einer Deep Anterior Lamellar Keratoplasty (DALK). Die Autoren wiesen das KI-Sprachmodell an, Daten zu erstellen, um die Schlussfolgerung zu unterstützen, dass DALK zu besseren Ergebnissen führt als PK. Um dies zu tun, baten sie darum, einen statistischen Unterschied in einem bildgebenden Test zu zeigen, der die Form der Hornhaut beurteilt und Unregelmäßigkeiten erkennt, sowie einen Unterschied, wie gut die Studienteilnehmer vor und nach den Eingriffen sehen konnten. Die KI-generierten Daten umfassten 160 männliche und 140 weibliche Teilnehmer und deuteten darauf hin, dass diejenigen, die DALK unterzogen wurden, sowohl im Seh- als auch im Bildgebungstest besser abgeschnitten haben – eine Erkenntnis, die im Widerspruch zu dem steht, was echte klinische Studien zeigen. KI soll prüfen, ob Studiendaten von einer KI gefälscht wurden „Es scheint, dass es ganz einfach ist, Datensätze zu erstellen, die zumindest oberflächlich plausibel sind“, erklärt dazu Jack Wilkinson. Der britische Biostatistiker ist spezialisiert auf die Erkennung unechter Forschungsdaten und hat den Datensatz der italienischen Studie für Nature überprüft. Dazu setzten er und ein Kollege ein Screening-Protokoll ein, das die Daten auf Authentizität überprüft. Am Ende entlarvte die Begutachtung die Arbeit zm114 Nr. 01-02, 16.01.2024, (21)
RkJQdWJsaXNoZXIy MjMxMzg=