Vergleichende Evaluation von Large Language Models bei der Generierung von Alternativtexten für visuell komplexes Bildmaterial


Raziel Hatzke

Präsentation
28. April 2025, 11:30 Uhr, Raum 3.216
Betreuer
Kooperationspartner
TH Köln
Stichworte
KI, Accessibility, Barrierefreiheit, WCAG, Alternativtexte, Bildbeschreibung, Vergleichsstudie
Bildrechte
Generiert mit ChatGPT

Abstract

Viele wissenschaftliche Publikationen und Lehrmaterialien nutzen komplexe Grafiken wie Domänenmodelle oder Sequenzdiagramme, um Sachverhalte anschaulich darzustellen. Doch häufig fehlen Alternativtexte für diese Bilder — ein Problem für Nutzer:innen von Screen-Readern, denen dadurch wichtige Informationen entgehen.

Ein Grund dafür ist die Herausforderung, solche visuell komplexen Materialien präzise und knapp zu beschreiben — „Ein Bild ist mehr wert als tausend Worte”. Alternativtexte für akademische Inhalte müssen nicht nur detailliert, sondern auch verständlich sein. Ihre Erstellung ist dementsprechend zeitaufwändig.

Large Language Models (LLMs), wie OpenAIs GPT-Serie, bieten hier einen möglichen Lösungsweg: durch ihre Fähigkeit, Bilder zu analysieren und automatisch Textbeschreibungen zu generieren kann die Arbeit von Autor:innen stark beschleunigt und vereinfacht werden. Doch wie gut eignen sich verschiedene LLMs für diese Aufgabe?

In diesem Projekt vergleichen wir fünf LLMs (Claude 3.5, GPT-4V, GPT-4o, Gemini 1.5 und LLaVA OneVision) anhand von den Kriterien Klarheit, Kohärenz, Genauigkeit, Vollständigkeit und Prägnanz. Dafür ließen wir die von den Modellen generierten Alternativtexte von Testleser:innen bewerten. Ziel ist es herauszufinden, welche LLMs sich am besten für die Beschreibung komplexer akademischer Grafiken eignen, hier am Beispeil von UML-Klassendiagrammen, und wo noch Limitationen und Verbesserungsbedarf bestehen.

Die Ergebnisse sollen dazu beitragen, die Barrierefreiheit von Lehrmaterialien und Forschungspublikationen durch effizientere Alternativtext-Generierung zu verbessern.

Weiterführende Themen

  • Entwicklung einer LaTeX-Erweiterung für KI-gestützte Alternativtext-Erstellung
  • Untersuchung von KI-generierten Alternativtexten im mehrsprachigen Kontext
  • Fine-Tuning eines LLMs für die Erstellung von Alternativtexten
  • Ethische Hinterfragung von KI-generiertem Inhalt in Forschung und Lehre