Viele wissenschaftliche Publikationen und Lehrmaterialien nutzen komplexe Grafiken wie Domänenmodelle oder Sequenzdiagramme, um Sachverhalte anschaulich darzustellen. Doch häufig fehlen Alternativtexte für diese Bilder — ein Problem für Nutzer:innen von Screen-Readern, denen dadurch wichtige Informationen entgehen.
Ein Grund dafür ist die Herausforderung, solche visuell komplexen Materialien präzise und knapp zu beschreiben — „Ein Bild ist mehr wert als tausend Worte”. Alternativtexte für akademische Inhalte müssen nicht nur detailliert, sondern auch verständlich sein. Ihre Erstellung ist dementsprechend zeitaufwändig.
Large Language Models (LLMs), wie OpenAIs GPT-Serie, bieten hier einen möglichen Lösungsweg: durch ihre Fähigkeit, Bilder zu analysieren und automatisch Textbeschreibungen zu generieren kann die Arbeit von Autor:innen stark beschleunigt und vereinfacht werden. Doch wie gut eignen sich verschiedene LLMs für diese Aufgabe?
In diesem Projekt vergleichen wir fünf LLMs (Claude 3.5, GPT-4V, GPT-4o, Gemini 1.5 und LLaVA OneVision) anhand von den Kriterien Klarheit, Kohärenz, Genauigkeit, Vollständigkeit und Prägnanz. Dafür ließen wir die von den Modellen generierten Alternativtexte von Testleser:innen bewerten. Ziel ist es herauszufinden, welche LLMs sich am besten für die Beschreibung komplexer akademischer Grafiken eignen, hier am Beispeil von UML-Klassendiagrammen, und wo noch Limitationen und Verbesserungsbedarf bestehen.
Die Ergebnisse sollen dazu beitragen, die Barrierefreiheit von Lehrmaterialien und Forschungspublikationen durch effizientere Alternativtext-Generierung zu verbessern.