Modelle der künstlichen Intelligenz spielen oft eine Schlüsselrolle bei medizinischen Diagnosen, insbesondere bei der Bildanalyse wie Röntgenaufnahmen. Studien haben gezeigt, dass diese Modelle nicht in allen demografischen Gruppen gleichermaßen erfolgreich arbeiten und oft bei Frauen und Angehörigen von Minderheiten schlechter abschneiden. Die Modelle haben auch einige unerwartete Fähigkeiten gezeigt. Forscher des MIT entdeckten im Jahr 2022, dass KI-Modelle die Rasse der Patienten aus deren Röntgenaufnahmen des Brustkorbs genau vorhersagen können – etwas, das selbst die geschicktesten Radiologen nicht erreichen können. Eine aktuelle Studie dieses Forschungsteams zeigt, dass Modelle, die bei der Vorhersage demografischer Daten am genauesten sind, auch die größten „Gerechtigkeitsverzerrungen“ aufweisen – Abweichungen in der Fähigkeit, Bilder von Menschen unterschiedlicher Rassen oder Geschlechter genau zu diagnostizieren. Die Ergebnisse deuten darauf hin, dass diese Modelle möglicherweise „demografische Abkürzungen“ bei der diagnostischen Beurteilung verwenden, was zu ungenauen Ergebnissen für Frauen, Schwarze und andere Gruppen führt, so die Forscher.
"Es ist allgemein bekannt, dass Hochleistungssmodelle des maschinellen Lernens die menschliche Demografie wie die selbstberichtete Rasse, das Geschlecht oder das Alter gut vorhersagen. Diese Arbeit bestätigt erneut diese Fähigkeit und verbindet dann diese Fähigkeit mit einem Leistungsdefizit zwischen verschiedenen Gruppen, was bisher nicht getan wurde", sagt Marzyeh Ghassemi, außerordentliche Professorin für Elektrotechnik und Informatik am MIT, Mitglied des MIT Institute for Medical Engineering and Science und Hauptautorin der Studie.
Die Forscher fanden auch heraus, dass sie die Modelle so umtrainieren können, dass sie gerechter werden. Ihre Ansätze zur „Entfernung von Verzerrungen“ funktionierten jedoch am besten, wenn die Modelle an denselben Arten von Patienten getestet wurden, an denen sie trainiert wurden, z.B. Patienten aus demselben Krankenhaus. Wenn diese Modelle auf Patienten aus verschiedenen Krankenhäusern angewendet wurden, traten die Verzerrungen erneut auf.
"Ich denke, die Hauptlehren sind erstens, jedes externe Modell gründlich mit den eigenen Daten zu bewerten, da jegliche Zusicherungen zur Gerechtigkeit, die die Modellentwickler mit ihren Trainingsdaten geben, möglicherweise nicht auf Ihre Population übertragen werden. Zweitens, wann immer genügend Daten verfügbar sind, sollten Sie die Modelle mit Ihren eigenen Daten trainieren", sagt Haoran Zhang, Student am MIT und einer der Hauptautoren der neuen Arbeit. Der MIT-Student Yuzhe Yang ist ebenfalls Hauptautor der heute in der Zeitschrift Nature Medicine veröffentlichten Arbeit. Judy Gichoya, außerordentliche Professorin für Radiologie und Bildwissenschaften an der Emory University School of Medicine, und Dina Katabi, Thuan und Nicole Pham Professorin für Elektrotechnik und Informatik am MIT, sind ebenfalls Autoren der Arbeit.
Bis Mai 2024 hat die FDA 882 medizinische Geräte mit KI-Unterstützung zugelassen, von denen 671 für den Einsatz in der Radiologie bestimmt sind. Seit 2022, als Ghassemi und ihre Kollegen zeigten, dass diese diagnostischen Modelle die Rasse genau vorhersagen können, haben sie und andere Forscher gezeigt, dass solche Modelle auch sehr gut das Geschlecht und das Alter vorhersagen können, obwohl die Modelle nicht für diese Aufgaben trainiert wurden.
"Viele beliebte Modelle des maschinellen Lernens haben eine übermenschliche Fähigkeit zur demografischen Vorhersage – Radiologen können die selbstberichtete Rasse nicht aus einer Röntgenaufnahme des Brustkorbs erkennen", sagt Ghassemi. "Das sind Modelle, die gut darin sind, Krankheiten vorherzusagen, aber während des Trainings lernen sie, auch andere Dinge vorherzusagen, die möglicherweise nicht erwünscht sind."
In dieser Studie wollten die Forscher untersuchen, warum diese Modelle für bestimmte Gruppen nicht genauso gut funktionieren. Sie wollten insbesondere sehen, ob die Modelle demografische Abkürzungen verwenden, um Vorhersagen zu treffen, die am Ende weniger genau für einige Gruppen sind. Diese Abkürzungen können in KI-Modellen auftreten, wenn sie demografische Attribute zur Bestimmung des Vorhandenseins eines medizinischen Zustands verwenden, anstatt sich auf andere Merkmale der Bilder zu verlassen.
Unter Verwendung öffentlich zugänglicher Röntgenaufnahmen des Brustkorbs aus dem Beth Israel Deaconess Medical Center in Boston trainierten die Forscher Modelle, um vorherzusagen, ob Patienten eine von drei verschiedenen medizinischen Zuständen haben: Flüssigkeitsansammlung in der Lunge, Lungenkollaps oder Herzvergrößerung. Dann testeten sie die Modelle an Röntgenaufnahmen, die nicht in den Trainingsdaten enthalten waren.
Insgesamt schnitten die Modelle gut ab, aber die meisten zeigten „Gerechtigkeitsverzerrungen“ – d.h. Abweichungen in den Genauigkeitsraten für Männer und Frauen sowie für weiße und schwarze Patienten.
Die Modelle konnten auch das Geschlecht, die Rasse und das Alter der Personen auf den Röntgenaufnahmen vorhersagen. Darüber hinaus gab es eine signifikante Korrelation zwischen der Genauigkeit jedes Modells bei der demografischen Vorhersage und dem Ausmaß seiner Gerechtigkeitsverzerrungen. Dies deutet darauf hin, dass die Modelle möglicherweise demografische Kategorisierungen als Abkürzungen für ihre Krankheitsvorhersagen verwenden.
Die Forscher versuchten dann, die Gerechtigkeitsverzerrungen mit zwei Arten von Strategien zu reduzieren. Für einen Satz von Modellen trainierten sie sie, um die „Robustheit der Untergruppen“ zu optimieren, was bedeutet, dass die Modelle belohnt wurden, wenn sie in der Untergruppe, in der sie die schlechteste Leistung erbrachten, besser abschnitten, und bestraft wurden, wenn ihre Fehlerquote für eine Gruppe höher war als für die anderen.
In einem anderen Satz von Modellen zwangen die Forscher sie, alle demografischen Informationen aus den Bildern zu entfernen, indem sie „adversariale“ Ansätze verwendeten. Beide Strategien erwiesen sich als ziemlich effektiv, fanden die Forscher heraus.
"Für Daten innerhalb der Verteilung können Sie bestehende hochmoderne Methoden verwenden, um Gerechtigkeitsverzerrungen ohne signifikante Kompromisse bei der Gesamtleistung zu reduzieren", sagt Ghassemi. "Die Methoden der Untergruppenrobustheit zwingen die Modelle, empfindlich auf Fehler in den Vorhersagen spezifischer Gruppen zu reagieren, und die adversarialen Methoden versuchen, alle Informationen über die Gruppe vollständig zu entfernen."
Diese Ansätze funktionierten jedoch nur, wenn die Modelle mit Daten derselben Art von Patienten getestet wurden, an denen sie trainiert wurden – zum Beispiel nur Patienten aus dem Datensatz des Beth Israel Deaconess Medical Center.
Als die Forscher Modelle, die „entbiasiert“ waren, unter Verwendung der BIDMC-Daten testeten, um Patienten aus fünf anderen Krankenhausdatensätzen zu analysieren, stellten sie fest, dass die Gesamtgenauigkeit der Modelle hoch blieb, aber einige zeigten große Gerechtigkeitsverzerrungen.
"Wenn Sie ein Modell in einem Satz von Patienten entbiasieren, bleibt diese Gerechtigkeit nicht unbedingt erhalten, wenn Sie zu einem neuen Satz von Patienten aus einem anderen Krankenhaus an einem anderen Ort wechseln", sagt Zhang.
Das ist besorgniserregend, da in vielen Fällen Krankenhäuser Modelle verwenden, die mit Daten aus anderen Krankenhäusern entwickelt wurden, insbesondere wenn ein fertiges Modell gekauft wird, sagen die Forscher.
"Wir haben festgestellt, dass selbst die modernsten Modelle, die optimal auf datenähnlichen Trainingsdatensätzen ausgeführt werden, nicht optimal sind – das heißt, sie machen nicht den besten Kompromiss zwischen Gesamtleistung und Untergruppenleistung – in neuen Umgebungen", sagt Ghassemi. "Leider wird das Modell wahrscheinlich so angewendet. Die meisten Modelle werden mit Daten aus einem Krankenhaus oder einer Quelle trainiert und validiert und dann weit verbreitet eingesetzt."
Die Forscher fanden heraus, dass Modelle, die mit adversarialen Ansätzen entbiasiert wurden, etwas gerechter waren, wenn sie an neuen Patientengruppen getestet wurden, als solche, die mit Methoden der Untergruppenrobustheit entbiasiert wurden. Sie planen nun, zusätzliche Methoden zu entwickeln und zu testen, um zu sehen, ob sie Modelle erstellen können, die gerechtere Vorhersagen auf neuen Datensätzen liefern.
Die Ergebnisse legen nahe, dass Krankenhäuser, die solche KI-Modelle verwenden, deren Wirksamkeit an ihrer eigenen Patientenpopulation bewerten sollten, bevor sie sie verwenden, um sicherzustellen, dass sie für bestimmte Gruppen keine ungenauen Ergebnisse liefern.
Die Forschung wurde von der Google Research Scholar-Auszeichnung, dem Harold Amos Medical Faculty Development Program der Robert Wood Johnson Foundation, RSNA Health Disparities, dem Lacuna Fund, der Gordon und Betty Moore Foundation, dem National Institute of Biomedical Imaging and Bioengineering und dem National Heart, Lung, and Blood Institute finanziert.
Quelle: Massachusetts Institute of Technology
Erstellungszeitpunkt: 02 Juli, 2024
Hinweis für unsere Leser:
Das Portal Karlobag.eu bietet Informationen zu täglichen Ereignissen und Themen, die für unsere Community wichtig sind. Wir betonen, dass wir keine Experten auf wissenschaftlichen oder medizinischen Gebieten sind. Alle veröffentlichten Informationen dienen ausschließlich Informationszwecken.
Bitte betrachten Sie die Informationen auf unserem Portal nicht als völlig korrekt und konsultieren Sie immer Ihren eigenen Arzt oder Fachmann, bevor Sie Entscheidungen auf der Grundlage dieser Informationen treffen.
Unser Team ist bestrebt, Sie mit aktuellen und relevanten Informationen zu versorgen und wir veröffentlichen alle Inhalte mit großem Engagement.
Wir laden Sie ein, Ihre Geschichten aus Karlobag mit uns zu teilen!
Ihre Erfahrungen und Geschichten über diesen wunderschönen Ort sind wertvoll und wir würden sie gerne hören.
Sie können sie gerne senden an uns unter karlobag@karlobag.eu.
Ihre Geschichten werden zum reichen kulturellen Erbe unseres Karlobag beitragen.
Vielen Dank, dass Sie Ihre Erinnerungen mit uns teilen!