
Bild von Gerd Altmann auf Pixabay
Sind KI-Systeme bereits in der Lage, medizinisches Fachwissen besser abzurufen als Ärztinnen und Ärzte? Forschende der Universität Marburg und des Universitätsklinikums Gießen und Marburg (UKGM) untersuchten in einer Studie, wie gut 13 der bekanntesten öffentlich verfügbaren KI-Sprachmodelle klinisches Wissen zur akuten Nierenschädigung in einer standardisierten Testsituation abrufen und anwenden können.
Wissenstest: Mensch gegen KI
Das Team um Dr. Philipp Russ verglich diese Modelle mit 123 freiwilligen Teilnehmenden, darunter Medizinstudierende sowie Ärztinnen und Ärzte aus dem Bereich der Inneren Medizin. Die ärztlichen Probanden waren Teilnehmende des Jahreskongresses der Deutschen Gesellschaft für Innere Medizin (DGIM) im vergangenen Jahr. Beide Gruppen bearbeiteten denselben deutschsprachigen Wissenstest zu Nierenschädigungen mit zwei realistischen Patientenfällen und 15 Multiple-Choice-Fragen.
Das Ergebnis fiel deutlich aus: Die getesteten Sprachmodelle beantworteten im Mittel 90 Prozent der Fragen korrekt, die Fachkongressteilnehmenden im Vergleich dazu lediglich 49 Prozent. Mehrere Modelle beantworteten sämtliche Fragen korrekt und benötigten dafür nur einen Bruchteil der Zeit, die die Teilnehmenden brauchten.
Vorteil Mensch
Die Studie zeigt damit, dass große Sprachmodelle leitlinienkonformes medizinisches Fachwissen in standardisierten Fragesituationen inzwischen sehr zuverlässig wiedergeben können. Zugleich betonen die Autoren, dass ein gutes Abschneiden im Wissenstest nicht bedeutet, dass diese Systeme eigenständig klinische Entscheidungen treffen können oder gar sollten.
Quelle: News Philipps-Universität Marburg




